• 周四. 5 月 30th, 2024

UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作一天学2500年

admin

8 月 14, 2023

GPT-2030会进化到什么版本?这位UC伯克利教授给出了史上最硬核预测。准备好,前方高能来袭!

为了更好地进行预测,Jacob查询了各种来源的信息,包括经验缩放定律、对未来计算和数据可用性的预测、特定基准的改进速度、当前系统的经验推理速度,以及未来可能的并行性改进。

2. 工作和思考的速度:预计GPT 2030每分钟处理的单词是人类的5倍,而每FLOP都多5倍的线可以进行任意复制,并进行并行运算。算力足够的话,它足以完类需要执行180万年的工作,结合2中的结论,这些工作只需2.4个月,就能完成。

4. 由于具有相同的模型权重,GPT的副本之间可以共享知识,实现快速的并行学习。因此,GPT可以在1天内学完人类需要学2500年的知识。

5. 除了文本和图像,GPT还能接受模态的训练,甚至包括各种违反直觉的方式,比如分子结构、网络流量、低级机器码、天文图像和脑部扫描。因此,它可能会对我们经验有限的领域具有很强的直觉把握,甚至会形成我们没有的概念。

它的快速并行学习还会转向人类行为,而因为自己已经掌握了「千年」的经验,它想要操控和误导人类也会很轻易。

在数学研究这种可以自动检查工作的领域,Jacob预测,GPT 2030将超过大多数专业数学家。

在机器学习领域,他预测GPT将能独立完成实验并生成图表和论文,但还是需要人类科研者给出具体指导、评估结果。

Jacob表示,他对GPT 2030特性的预测并不是从今天的系统中直观得出的,它们可能是错误的,因为ML在2030年会是什么样子,还存在很大的不确定性。

然而,无论GPT 2030会是什么样子,Jacob都相信,它至少是一个更好版本的GPT-4。

所以,我们现在就该为AI可能造成的影响(比如影响1万亿美元、1000万人的生命,或者对人类社会进程造成重大破坏)做好准备,而不是在7年以后。

展望未来,预测平台Metaculus给出的中位数是2027年,届时在APPS上将有80%的AI,将超越除了最优秀程序员之外的所有人类。

而且,它的进步速度很快(一年内30%),而且通过自动形式化、减少算法错误、改进思维链和更好的数据的加持,取得了显著的成果。

根据经验,GPT-4在MMLU上的准确率达到 86%,这是一套广泛的标准化考试,包括律师考试、MCAT以及大学数学、物理、生物化学和哲学;即使考虑到可能存在测试污染,这也超出了任何人类的知识广度。

关于大型语料库,有研究人员使用GPT-3构建了一个系统,该系统发现了大型文本数据集中的几种以前未知的模式,以及某篇工作中的缩放率,这表明模型很快就会成为「超人」。

更一般地说,机器学习模型具有与人类不同的技能特征,因为人类和机器学习适应的是非常不同的数据源(前者是通过进化,后者是通过海量的互联网数据)。

当模型在视频识别等任务上达到人类水平时,它们在许多其他任务(例如数学、编程和黑客攻击)上可能会成为超人。

此外,随着时间的推移,会出现更大的模型和更好的数据,这会让模型功能变得更为强大,不太可能低于人类水平。

虽然当前的深度学习方法可能在某些领域达不到人类水平,但在数学这类人类进化并不擅长的领域,它们很可能会显著超越人类。

因此,如果我们考虑截至4月份的OpenAI模型,它要么大约是人类速度的3倍,要么等于人类速度。因为加速推理存在强大的商业化压力,未来模型的推理速度还会更快。

事实上,根据Fabien Roger 的跟踪数据,在撰写本文之前的一周,GPT-4的速度已经提高到约540wpm(12个token/秒);这表明空间仍然很大。

重要的是,机器学习模型的速度不是固定的。模型的串行推理速度可以提高k^2,但代价是吞吐量降低k倍(换句线$$并行副本可以替换为速度快$$k^2$$倍的单个模型)

这可以通过并行平铺方案来完成,理论上该方案甚至适用于$$k^2$$这样的大值,可能至少为100,甚至更多。

因此,我们不应将GPT 2030视为「加速的人类」,而应将其视为有潜力发展出一些违反直觉技能的「超级加速工人」。

对于提速125倍的语言模型,只要在GPT 2030的技能范围之内,我们需要一天时间的学会的认知动作,它可能在几分钟内就会完成。

此外,一旦一个模型被微调到特别有效,更改就可以立即传播到其他实例。模型还可以针对特定的任务进行蒸馏,从而运行得更快、更便宜。

比如,训练GPT-3的成本,足以运行9×10^11次前向传播。用人类等价的术语来说,人类以每分钟380个单词的速度思考,一个单词平均占1.33个token,因此9×10^11次前向传播相当于以人类速度工作约3400年。

因此,该组织可以以人类工作速度运行3400个模型的并行副本一整年,或者以5倍人类速度运行相同数量的副本2.4个月。

随着自然产生的语言数据被耗尽,这一趋势将会放缓,但新的模式以及合成或自我生成的数据仍将继续推动这一趋势。

一个大致的估计显示,GPT-4的训练占用了世界上大约0.01%的计算资源,在未来它的训练和运行将占用全世界更例的算力,因此在训练后进一步扩展的空间较小。

例如,ChatGPT可以部署到数百万用户,从每次交互中学习一些东西,然后将梯度更新传播到中央服务器,随后应用于模型的所有副本。

通过这种方式,ChatGPT一小时内观察到的人性就比人类一生(100万小时 = 114年)还要多。并行学习可能是模型最重要的优势之一,这意味着它们可以快速学习任何缺失的技能。

即使是极端的并行化,也不会对学习效率造成太大影响,因为在实践中,数以百万计的批大小是很常见的,并且梯度噪声尺度预测在某个「关键批大小」以下,学习性能的降低将是最小的。

我们首先使用了上文第3节的数字,得出的结论是训练模型的成本足以模拟模型180万年的工作(根据人类速度进行调整)。

假设训练运行本身持续了不到1.2年,这意味着训练模型的组织拥有足够的GPU,以人类速度运行150万个副本。

截至2023年5月,ChatGPT拥有1亿用户,截至2023年1月,每天有1300万活跃用户。

然而,未来的ChatGPT式模型很可能会是这个数字的20倍,达到每天2.5亿活跃用户或更多,因此每天100万人的数据,是相当合理的。

然而,现在情况正在迅速改变,因为模型正在接受其他模态(如图像)的训练,并且开始与物理执行器进行接互。

此外,模型不会局限于文本、自然图像、视频和语音等人类中心的模态,它们很可能还将接受对于我们来说陌生的模态的训练,比如网络流量、天文图像或其他大规模数据来源。

首先,从经济上讲,将语言与不太熟悉的模态(如蛋白质)配对是有用的,这样用户可以从解释中受益,并高效地进行修改。这意味着在蛋白质、生物医学数据、CAD模型以及与经济部门相关的其他模态上进行多模态训练。

除了传统的文本和视频,一些最大的现有数据来源是天文数据(每天将很快达到exabytes级)和基因组数据(每天约0.1exabytes)。这些海量数据源有可能被用于训练GPT 2030。

使用非传统模态,意味着GPT 2030可能会具有非直观的能力。它可能会比我们更好地理解星星和基因,即使它并不具备体力。

这意味着我们可以(在并行性约束的前提下)在2.4个月内,模拟180万个智能体工作一年的情况。

我们可以支付5倍的FLOP费用,来获得额外的25倍加速(达到人类速度的125倍),因此我们还可以在3天内,模拟14000个智能体工作一年的情况。

最后,现在的模型在进行一连串思考后,只能生成几千个token,之后就会「卡住」,进入一个不再产生高质量输出的状态。

此外,现在全球并没有多少数学家(在美国只有3000名),因此GPT-2030可能会在在几天内,就模拟出超过所有数学家一年内产出的成果。

它在展示和解释实验结果方面也会表现相当出色,因为GPT-4能够以通俗易懂的方式解释复杂主题,同时市场也对此有很大需求。

因此,机器学习研究可能会简化为构思好要进行的实验,然后和高质量(但可能不可靠)的实验结果报告交互。

社会科学的发展可能也会显著加速。很多论文的大部分工作是追踪、分类和标记有趣的数据来源,并提取模式。

这满足了要求3,因为分类和标记可以分解为简单的子任务;也满足了要求2,只要数据可以在互联网上获得,或者可以通过在线调查收集到。