易倍体育官网,观点|AGI的“智能洪流”不会太早到来
发布时间:2025-02-19 16:33:51点击:
从不可能,到数十年,再到如今的「即将发生」,通用人工智能(AGI)到来的时间,似乎离我们越来越近了。
前不久,OpenAI 首席执行官 Sam Altman 也在个人博客中写道,“我们现在确信,我们已经知道如何构建我们传统上理解的 AGI 了。”
然而,对于这一定义依然不清晰的技术词汇,人工智能(AI)行业“内部人士”做出的大胆预测,是否可信呢?即使撇开人类的「私心」,且预测是可靠的,人类采用和适应这一技术的速度也或许被高估了。也就是说,AGI 或许并不会如洪水般迅速涌入我们的日常生活。
日前,宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 在题为“Prophecies of the Flood”的文章中阐述了上述观点。他言辞犀利地表示:
我们不相信这些“内部人士”的理由有很多,因为他们在做出这些大胆预测时,是有明确的动机的:他们在筹集资金、提高股票估值,或许也想试图说服自己相信自己的历史重要性。他们是技术专家,不是预言家,而历史上(很多)充满自信的宣言,被证明早了几十年。
尽管如此,Mollick 教授在谈到 agent 时表示,“过去几周的情况表明,实用的 agent,至少在狭义但具有重要经济意义的领域,现在是可行的......如果通用 agent 系统能够可靠、安全地工作,将真正改变一切。
此外,他还以“水獭在飞机上使用 wifi”的案例展示了多模态模型的快速进展。
最后,他在博客文章末尾写道,“即将到来的智能洪流本质上并无好坏之分——但我们如何做好准备、如何适应它,以及最重要的是,我们如何选择使用它,将决定它是进步还是破坏的力量。”
研究人员开始迫切谈论超级聪明的 AI 系统的到来,好似智能如洪水一般正在涌来(a flood of intelligence)。不是在遥远的未来,而是即将发生。
他们经常提到通用人工智能(AGI)——尽管定义依然不够精确,但大致是指“机器能够在大多数智力任务上都能胜过人类专家”。他们认为,这种可以「按需」展示出的智能将会深刻地改变社会,而且很快就会实现。
我们不相信这些“内部人士”的理由有很多,因为他们在做出这些大胆预测时,是有明确的动机的:他们在筹集资金、提高股票估值,或许也想试图说服自己相信自己的历史重要性。他们是技术专家,不是预言家,而历史上(很多)充满自信的宣言,被证明早了几十年。
即使撇开人类的这些「私心」不谈,底层技术的实际表现也是我们保持怀疑的理由。尽管目前的大语言模型(LLM)展现出了强大的能力,但从根本上说仍然是一种不一致(inconsistent)的工具——在某些任务上表现出色,而在看似简单的任务上却略显拉垮。这种“锯齿状边界”(jagged frontier)是当前人工智能系统的一个核心特征,不太容易被轻易磨平。
另外,即使假设研究人员关于“AGI 将在未来一两年内到来”的预测是正确的,他们也很可能高估了人类采用和适应一项技术的速度。一个组织的变革需要很长时间。工作、生活和教育体制的变革则更为缓慢。在世界上找到这项技术的重要具体用途,这本身就是一个缓慢的过程。
我们或许现在就实现了 AGI,而大多数人都不会注意到(事实上,一些观察家认为这种情况已经发生,他们认为 Claude 3.5 等最新的人工智能模型实际上就是 AGI)。
然而,将这些预测斥为纯粹的炒作可能并没有太大意义。无论动机如何,人工智能实验室的研究人员和工程师们似乎真的相信,他们正在见证一些前所未有的事物的出现。
他们的这种坚定本身影响并不大——只是,越来越多的公开基准和演示开始暗示,为什么他们可能认为我们正在接近人工智能能力的根本转变。水涨船高的速度似乎快于预期。
单凭他们的确信并不重要--除非越来越多的公开基准和演示开始暗示,为什么他们会相信我们正在接近人工智能能力的根本性转变。水上涨的速度,似乎比预期的要快。
引发最多猜测的事件是,OpenAI 在去年 12 月底发布了一款名为 o3 的新模型。除了 OpenAI 之外,还没有其他人真正使用过这个系统,但它是 o1 的继任者,而 o1 已经给人们留下了深刻印象。
o3 模型是新一代“推理模型”之一,在正式回答问题之前会花费更多时间进行“思考”,这大大提高了它们解决更困难问题的能力。OpenAI 为 o3 展示了许多令人吃惊的基准测试,表明 o3 比 o1 更强,实际上,甚至超过了我们认为的 SOTA 人工智能的水平。有三个基准尤其值得关注。
第一项测试名为“GPQA”(Graduate-Level Google-Proof Q&A),是通过一系列的选择题来测试高层次的知识,即使是谷歌也无法提供帮助。在这项测试中,在互联网的帮助下,人类博士答对了 34% 的专业外问题,答对了 81% 的专业内问题。经过测试,o3 首次以 87% 的正确率击败了人类专家。
第二项基准是 FrontierMath,这是一组由数学家构建的难以解决的数学问题,事实上,没有一个人工智能的正确率能超过 2%,直到 o3 出现,它的正确率达到了 25%。
最后一个基准是 ARC-AGI,这是一个著名的流体智能测试,其设计对人类来说相对容易,但对人工智能来说却很难。同样,o3 在这项测试中击败了所有以前的人工智能以及人类基准水平,得分率达到了 87.5%。
所有这些测试都有重要的“注意事项”,但它们表明,我们以前认为无法逾越的人工智能性能障碍,实际上可能很快就会被打破。
随着人工智能模型变得越来越聪明,它们也会成为更有效的 agent。“agent”是又一个没有清晰定义(ill-defined)的术语(看出什么规律了吗?),一般指人工智能具有自主行动的能力,从而实现一系列目标。过去几周的情况表明,实用的 agent,至少在狭义但具有重要经济意义的领域,现在是可行的。
谷歌 Gemini 的 Deep Research,是一个很好的例子。它实emc易倍体育平台,际上是一个专门的研究 agent。我给了它一个主题,比如“从创始人的角度出发,针对高增长企业,对初创公司的融资方式进行比较研究”。在几分钟内阅读完 173 个(!)网站后,它就想出了一个计划,并为我编制了一份报告,给出了答案。
但这有什么用吗?我在沃顿商学院教授创业学入门课程已经十多年了,发表过相关的作品,自己也创办过公司,甚至还写过一本关于创业学的书。最大的问题不在于准确性,而在于 agent 仅限于公开的非付费网站,而非学术或高级出版物。此外,它给出的内容也十分浅显,在相互矛盾的证据面前,没有提出有力的论据。虽然比不上最优秀的人类,但也比我看到的很多报告要好。
尽管如此,这仍然是一个具有真正价值的、颠覆性的 agent 案例。研究和撰写报告是许多工作的主要任务。Deep Research 在三分钟内完成的工作,人类可能要花上好几个小时,尽管他们可能会添加更多细致入微的分析。
有鉴于此,作为一个起点,任何撰写研究报告的人或许都应该尝试一下 Deep Research,看看它是如何工作的,尽管一份好的最终报告仍然需要人工帮助。
我曾有机会与 Deep Research 项目的负责人交谈,得知这只是一个小团队的试点项目。因此,我猜想,其他团队和公司如果受到激励,也能创造出狭义但有效的 agent。狭义 agent 现在是一种真实的产品,而不是一种未来的可能性。现在已经有很多编码 agent,你还可以使用实验性开源 agent 进行科学和金融研究。
狭义 agent 专门从事特定任务,这意味着它们的能力在一定程度上是有限的。这就提出了一个问题:我们是否很快就能看到通用 agent,你可以向人工智能询问任何事情,它都会利用计算机和互联网来完成。尽管 Altman 已经提出了他的观点,但 Simon Willison 却并不认同。随着时emc易倍体育平台,间的推移,我们将了解到更多,但如果通用 agent 系统能够可靠、安全地工作,这将真正改变一切,因为它允许聪明的人工智能在世界上采取行动。
agent 和非常聪明的模型是变革性人工智能所需的核心要素,但还有许多其他要素似乎也在快速进步易倍体育官网,。这包括人工智能可以记住多少(上下文窗口)和允许它们能看和能说的多模态能力方面的进展。回顾一下过去,对了解进展情况会有所帮助。
例如,在 ChatGPT 问世之前,我就一直在使用“水獭在飞机上使用 wifi”这一提示词(prompt)来测试图像和视频模型。2023 年 10 月易倍体育官网,,这个提示词带来了这个可怕的怪物。
不到 18 个月后,多种图像创建工具都「搞定」了这个提示词。我不得不想出一些更具挑战性的方法(这是基准饱和的一个例子,即旧的基准被人工智能击破)。
我决定花几分钟时间,看看使用谷歌 Veo 2 视频模型制作“水獭的旅程”影片,能达到什么程度。下面这段视频只用了我不到 15 分钟的工作时间,尽管我不得不等待一段时间来创建视频。看看阴影和光线的质量。我特别欣赏水獭最后打开电脑的样子。
为了更进一步,我决定把水獭的传奇故事改编成一部 20 世纪 80 年代风格的科幻动画片,以太空中的水獭为主角,并配上适合那个时代的主题曲(感谢 Suno)。同样,我只做了很少的(人工)工作。
基于此,我们应该如何认真对待人工智能实验室关于“智能洪流即将到来”的说法?
即使我们只考虑我们已经看到的——o3 基准打破了以前的障碍,狭义 agent 完成了复杂的研究,多模态系统创造了越来越复杂的内容——我们正在寻找能够改变许多知识型任务的能力。然而,实验室们坚持认为,这仅仅是个开始,更强大的系统和通用 agent 即将出现。
我最担心的并不是实验室的这一时间表是否正确——而是我们没有为目前水平的人工智能可以做的事情做好充分准备,更不用说他们的预测可能是正确的。
当人工智能研究人员专注于对齐,确保人工智能系统以合乎道德和负责任的方式行动时,却很少有人去设想和阐述一个充斥着人工智能的世界究竟会是什么样子。这不仅与技术本身有关,还与我们选择如何塑造和部署这项技术有关。
这些问题不是人工智能开发人员能够或应该单独回答的。这些问题需要组织领导人、那些工作生活可能发生转变的员工,以及那些未来可能取决于这些决策的利益相关者的关注。
即将到来的智能洪流本质上并无好坏之分——但我们如何做好准备、如何适应它,以及最重要的是,我们如何选择使用它,将决定它是进步还是破坏的力量。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。