• 周四. 5 月 30th, 2024

AI立法进行时③:百舸争流的AI市场训练数据才是关键变数?

admin

8 月 9, 2023

2022年,生成式AI发展为人工智能发展注入一针强心剂,ChatGPT的横空出世,被视为通用人工智能的起点和强人工智能的拐点,引发新一轮人工智能。人工智能发展似乎找到了自己的主流叙事。

不过,技术创新的同时也带来了监管难题,我们面对的不是近在咫尺的当下,而是想象触达不到的未来。对于颠覆性的人工智能技术,全球正在进行治理话语的竞赛,中国将会如何通过立法来贡献出具有中国特色的AI治理路径?如何既拥抱技术发展,又能有效规制风险?之前南财合规科技研究院推出AI契约论系列报道以及《生成式人工智能发展与监管》,在此基础上,将继续推出AI立法进行时系列,以期为中国AI治理提供有益思路。

ChatGPT横空出世“横空出世”,让大型语言模型及其背后的生成式人工智能技术逐渐被关注和使用,而其商业应用前景也吸引从业者纷纷入局。今年以来,仅在国内就已经有超过70个大模型公开发布,应用场景涵盖办公软件、社交文娱、商业营销等多个方面。

然而,当前由技术走向落地的实践中,数据环节还存在问题。一方面,训练数据获取来源不明等引发的知产纠纷、数据隐私不可忽视;另一方面,数据作为人工智能发展的基础,训练数据分散、高质量数据不足等问题也亟待解决。 受访专家认为,训练数据合规上,法律法规层面对训练数据集的合法性获取路径的明确是监管下一步应当关注的重点;而高质量数据存量不足的难题则需要行业、政府等多方共同发力,对行业数据、公共数据等做进一步开发。

从ChatGPT一枝独秀,到多家大模型百舸争流,随着人工智能商业化的竞速进入白热化,围绕训练数据的问题与矛盾开始逐渐显现。

大模型的训练和迭代与训练数据密切相关。换言之,“智能涌现”的背后,很多时候意味着海量的数据投入。以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB。

训练数据需求渐涨也引发了一系列问题,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。

今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。

4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。同样在4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。

而在7月初,社交软件Twitter官方宣布将限制用户每天能查看的推文数量。马斯克对此表示,人工智能企业非法使用Twitter数据来训练他们的大语言模型,限制查看数量是Twitter对“数据抓取”和“系统操纵”的必要反应。

“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣在此前接受21世纪经济报道记者采访时表示,一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。

在7月,七部门联合发布《生成式人工智能服务管理暂行办法(以下简称“《办法》”)》为生成式AI发展“立规”。

平安证券认为,《办法》正式落地意味着我国大模型商用浪潮即将开启。而这意味着商用的“燃料”——数据,将更大规模地进入生成式人工智能领域。

以ChatGPT的为例,公开信息显示,其模型数据集的源头包括:维基百科、书籍、期刊、Reddit链接、Common Crawl和其他数据集等;而国内大模型的数据集多源于三个方面:厂商积累数据、公开渠道爬取的数据、各类免费或付费的第三方数据库与数据集。

由于可能存在缺失、噪声、重复等情况,从数据源收集而来的数据并不能直接用于大模型训练,需要经过清洗、标注等工序后,生成可供大模型使用的数据集,再与算法、算力等结合,共同支撑大模型的运转。

6月,OpenAI就接连被指控侵犯知识产权及个人隐私。一批匿名人士集体起诉OpenAI及其投资方之一的微软公司秘密从互联网上窃取了来自书籍、文章、网站和帖子的3000 亿个单词,此举违反了服务协议条款以及州和联邦的隐私和财产法。

该月的另一起诉讼则来自两位作家,由于ChatGPT可以完整概括两位作者的作品,可能意味着ChatGPT未经他们同意“摄取”他们的小说训练聊天机器人。

张欣指出,法律法规层面对训练数据集的合法性获取路径的明确是监管下一步应当关注的重点。“只有明确了合法获取的路径,大模型训练者才有更稳定的合规预期以开展工作。”

在7月举行的全球数字经济大会人工智能高峰论坛上,昆仑万维科技股份有限公司CEO方汉表示,高质量数据对大模型发展至关重要。

“最近三年的大模型训练积累的是对丰富的预训练数据深度加工的能力。OpenAI所有公开的论文和讲演,对训练过程和训练算法都是公开的,但其从不公开模型结构及数据处理。”方汉指出,目前全世界大模型预训练团队都试图重现OpenAI在模型架构的动作以及预训练数据的动作,任何一家企业的预训练数据加工能力都至关重要。

人工智能发展的突破需要高质量数据的帮助。然而去年,一项来自Epoch Al Research团队的研究结果表明,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。这意味着,如果数据效率没有显著提高或没有新的数据源可用,那么到2040年,模型的规模增长将放缓。

竞天公诚律师事务所合伙人袁立志在此前受访时表示,市场侧的力量可以一定程度上帮助各方向前。在他看来,数据资源的寻找、汇聚、清洗、标注等各个环节预计都会因竞争的活跃而不断改善,以满足市场需求。

张欣则具体指出,目前行业内的开源数据集正在不断增多,未来应呼吁更多人工智能企业、从业者加入,建立更加良好的行业生态。“人工智能训练时的众包思路也非常重要。”她认为,企业之外,还可以善用技术社群的力量提升并开拓更多的高质量数据集。

发改委官网显示,我国政府数据资源占全国数据资源的比重超过3/4,但开放规模不足美国的10%,个人和企业可以利用的规模更是不及美国的7%。

上海市于去年10月发布的《上海市促进人工智能产业发展条例》提出,推动人工智能领域高质量数据集建设。支持相关主体将数据与行业知识深度融合,开发数据产品,服务算法设计、模型训练、产品验证、场景应用等需求。

今年5月,《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》发布,其中指出,要提升高质量数据要素供给能力,归集高质量基础训练数据集,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗;同时,持续扩展高质量多模态数据来源,建设合规安全的中文、图文、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。

而6月,深圳发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》中也提出,要搭建全市公共数据开放运营平台,建立多模态公共数据集,打造高质量中文语料数据等。

而7月,七部门联合发布的《办法》中,亦对于如何促发展给出了具体指引,指出要推动生成式人工智能基础设施和公共训练数据资源平台建设;促进算力资源协同共享,提升算力资源利用效能;推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。