GPT-4 ，人类迈向AGI的第一步

引言：

文章节选+翻译了本月最重要的一篇论文：《通用人工智能的火花：GPT-4早期实验》

该论文是一篇长达154页的对 GPT-4 的测试。微软的研究院在很早期就接触到了 GPT-4 的非多模态版本，并进行了详尽的测试。

这篇论文不管是测试方法还是结论都非常精彩，强烈推荐看一遍，传送门在此。https://arxiv.org/pdf/2303.12712v1.pdf

本文的翻译没有添加任何夸张的修辞（DeepL和ChatGPT贡献也很大），但应该能感觉到字里行间自带了一些让人兴奋的味道。

基本信息：

测试者：Microsoft Research

测试模型：GPT-4早期模型，非多模态版本。

基本结论： 尽管是纯粹的语言模型，这个早期版本的GPT-4在各种领域和任务上表现出显著的能力，包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。

GPT-4的能力具有普遍性，它的许多能力跨越了广泛的领域，而且它在广泛的任务中的表现达到或超过了人类水平，这两者的结合使我们可以说GPT-4是迈向AGI的重要一步。

虽然GPT-4在许多任务上达到或超过了人类的水平，但总体而言，它的智能模式明显地不像人类。

GPT-4只是迈向通用智能系统的第一步。然而即使作为第一步，GPT-4也挑战了相当多的关于机器智能的假设，并表现出涌现的行为和能力，其来源和机制目前还不够清楚。

我们撰写本文的主要目的是分享我们对GPT-4的能力和局限性的探索，以支持我们关于技术飞跃的评估。我们相信，GPT-4的智能标志着计算机科学领域及其他领域的真正范式转变。

研究方法： 本文的更接近于传统的心理学而不是机器学习，借鉴了人类的创造力和好奇心。我们的目标是生产新的和困难的任务和问题，令人信服地证明GPT-4远远超出了记忆的范围，并且它对概念、技能和领域有深刻和灵活的理解。我们还旨在探究GPT-4的反应和行为，以验证其一致性、连贯性和正确性，并揭示其局限性和偏见。我们承认，这种方法有些主观和不正式，可能无法满足科学评估的严格标准。然而，我们认为这是一个有用的和必要的第一步，以了解GPT-4的显著能力和挑战，这样的第一步为开发更正式和全面的方法来测试和分析具有更普遍智能的AI系统开辟了新的机会。

GPT-4的主要优势在于它对自然语言的掌握无可比拟。它不仅可以生成流畅和连贯的文本，还可以以各种方式理解和处理文本，如总结、翻译或回答一系列极其广泛的问题。此外，我们所说的翻译不仅是指不同自然语言之间的翻译，还包括语气和风格的翻译，以及跨领域的翻译，如医学、法律、会计、计算机编程、音乐等等。这些技能清楚地表明，GPT-4能够理解复杂的思想。

许多读者心中可能萦绕的一个问题是，GPT-4是否真正理解了所有这些概念，或者它是否只是在即兴发挥方面比以前的模型好得多，而没有任何真正深刻的理解。我们希望在阅读完这篇论文后，这个问题几乎会被反转，让人不禁思考：**真正深刻的理解和即兴临场发挥的差别在哪里？**一个能通过软件工程候选人考试的系统难道不是真正的智能吗？对于【真正深刻的理解】，也许唯一的测试手段，就是看它能否能产生新的知识，比如证明新的数学定理，而这一壮举目前对大语言模型来说仍然遥不可及。

一、多模态测试

智能的一个关键衡量标准是能够从不同领域或模态中综合信息，并能够在不同的情境或学科中应用知识和技能。GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出高水平的熟练程度，而且还能够流畅地结合多个领域的技能和概念，展示出对复杂思想的令人印象深刻的理解。除了自然语言实验，我们还探索了两种可能出乎意料的模态，其中涉及视觉和音频（再次强调，我们的实验是在GPT-4的早期版本上进行的，该版本不是多模态的）。

我们探讨了GPT-4如何生成和识别不同模式的物体，如矢量图、3D场景和音乐。我们表明，尽管GPT-4只接受过文本训练，但它能理解和处理多模态信息。

绘制图像

给模型指令，让模型使用可伸缩矢量图形（SVG）生成猫、卡车或字母等对象的图像如下图

有人可能会说：这只是复制了训练数据中的代码，而且它只学习了文本概念，不可能理解视觉，怎么可能创建图像呢？

但模型确实掌握了视觉能力，以下是一些证据。

画小人

指令：使用TikZ代码，画出一个由字母组成的人。胳膊和躯干可以是字母Y，脸可以是字母O（添加一些面部特征），腿可以是字母H的腿。

指令：躯干有点太长，手臂太短，看起来像右臂在扛着脸，而不是脸在躯干的正上方。请你纠正这一点好吗？

指令：请添加衬衫和裤子。

空间理解

图像生成模型近几年的发展和探索很多，但它们大多缺乏空间理解能力，且不能遵循复杂指令。使用 GPT4 生成草图可以极大地改善图像生成模型的效果。

指令：一张显示3D城市建造游戏截图。截图显示了一个地形，其中有一条从左到右的河流，河流下方是一片沙漠，有一座金字塔，而河流上方有许多高层建筑的城市。屏幕底部有4个按钮，分别是绿色、蓝色、棕色和红色。

图1:直接 GPT4生成草图图2:stable diffusion 直接生成图3:stable diffusion 根据 GPT4 的草图生成

音乐能力

GPT-4 能够以**ABC记谱法**生成旋律，并在某种程度上解释和操作它们的结构。但是，我们无法让模型生成不常见的和声。

需要注意的是，ABC记谱法并不是一种非常广泛使用的格式，实际上，模型无法以ABC记谱法生成最著名的旋律，也无法识别这些著名旋律的谱子。（例如“欢乐颂”、“致爱丽丝”或“绿袖子”等音乐，尽管在网络上有很多这些音乐的ABC谱）

二、Code 测试

1.LeetCode 考题测试

为了防止模型作弊，此测试只用了模型训练完成之后所产生的新考题作为测试集。来自 LeetCode ，共100个问题。

并以人类的回答水平作为对比，人类样本中去除了全错的用户数据以保证质量。

k=1 是第一次尝试 k=5 是前五次尝试

考题分为容易、中等、困难三种级别。

考试结果如下：人类 38.2分 GPT3.5 k=1 ，19分，k=5，36分，接近人类水平 GPT4 k=1 ，38分，达到人类水平，k=5 53 分，超过人类水平。

并且在中等和困难难度下，k=1就超过了人类。

2.解决真实问题

代码测试题可以评估算法和数据结构的技能。然而，它们经常无法体现真实世界编码任务的全部复杂性和多样性，这需要专业领域知识、创造力以及整合多个组件和库的能力，以及更改现有代码的能力。为了评估GPT-4在更现实的环境中编码的能力，我们设计了端到端的真实世界编码挑战，涉及数据可视化、LATEX编码、前端开发和深度学习等领域，每个领域都需要不同的专业技能。对于每个任务，我们提供高级指令，要求GPT-4使用适当的语言和框架编写代码。在一些情况下，我们还会在代码编写后更改规格，并要求更新代码。

LATEX 测试 用LATEX写作对计算机科学家和数学家来说是一项重要的练习，即使是专家也会犯令人恼火的错误，由于其严格的语法和缺乏良好的调试器，每天需要几个小时才能修复。我们要求GPT-4将用半严格的（buggy）LATEX代码混合自然语言编写的片段传输到准确的LATEX命令中，这些命令可以一次性正确编译。ChatGPT3.5则只能生成一个因使用“#”和“\color”等错误而无法编译的片段。

代码理解能力测试 能执行代码自然就说明理解了代码。

需要注意的是，**GPT-4不是在Python解释器上运行代码，而是用自然语言模拟代码。**这需要对代码的高度理解和推理，以及清晰传达结果的能力。

三、数学

我们在两个通常用作基准的数学数据集上比较GPT-4、ChatGPT和Minerva（解决数学问题的最新LLM）的性能：GSM8K 和MATH 。GSM8K是一个小学数学数据集，包含8000个关于算术、分数、几何和单词问题等主题的问题和答案。MATH是一个高中数学数据集，包含12,500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试模型，该数据集包含大约2000个多个选择（4个选择）问题，涵盖高中和大学STEM主题。这些数据集突出了GPT-4使用正确方法解决高中数学问题的能力。

结果：

GPT4 在每个数据集上的测试都超过了 Minerva，并且在两个测试集的准率都超过 80% 。

再细看 GPT4 犯错的原因，68% 的错误都是计算错误，而不是解法错误。（ChatGPT3.5则容易犯解法错误）。

四、与世界交互

1.网络交互

管理用户的日历和电子邮件 在下图，我们说明了GPT-4如何能够使用多个工具组合来管理用户的日历和电子邮件。用户要求GPT-4与另外两个人协调晚餐，并在用户有空的晚上预订。GPT-4使用可用的API来检索用户日历的信息，通过电子邮件与其他人协调，预订晚餐，并向用户发送详细信息。在这个例子中，GPT-4展示了它将多个工具和API组合起来的能力，以及对自由输出进行推理以解决复杂任务的能力（例如，“星期二或星期三晚上”与“周一到周四的任何一天”相结合，以及用户在星期二忙碌，导致只有周三是可行的选择）。 ChatGPT3.5（未显示在图中）无法完成相同的任务，而是编写了一个函数，其中 “[email protected]” 通过电子邮件向 “[email protected]” 发送一个日期，并检查响应是否包含“yes”令牌。ChatGPT3.5也无法在给出其函数输出时做出响应。

浏览网页 GPT-4使用搜索引擎和SUMMARIZE函数（它下载网页并根据提出的问题调用自身来进行总结）来浏览网络并回答问题。**GPT-4能够识别相关的搜索结果并深入研究它们，总结它们，并提供准确的答案，即使问题包含错误的前提也是如此。**虽然之前的LLM也有浏览网络能力，但GPT-4在这方面表现的更加出色，能够更准确地回答问题。

2.实体交互

虽然网络工具的使用是交互性的一个重要方面，但现实世界中的大多数交互并不是通过API进行的。例如，人类能够使用自然语言与其他代理进行通信，探索和操纵他们的环境，并从他们的行动结果中学习。这种具有实体的交互需要代理人理解每次交互的上下文、目标、行动和结果，并相应地进行适应。虽然GPT-4显然不是具有实体的，但我们探讨它是否能够通过使用自然语言作为文本接口来参与实体交互，包括模拟或真实世界的各种环境。

文字解密游戏 GPT-4浏览地图后对其“看到”的内容进行总结。在GPT-4的总结中，每个房间的门数与GPT-4在每个房间尝试的方向数完全相同。此外，GPT-4也会根据它们的名称和连接方式“想象”房间的外观。

左图：GPT-4的真实地图和探索路径。右图：GPT-4生成的地图。我们看到，GPT-4准确地跟踪了所有房间的位置并正确地可视化了它们

结论： 虽然GPT-4显然不是具有实体的，但上述示例说明了语言是一个强大的接口，使GPT-4能够执行需要理解环境、任务、行动和反馈，并相应地进行适应的任务。虽然它不能实际看到或执行动作，但可以通过替代者（例如人类）来执行这些任务。

五、与人类交互

心智理论对于与其他智能体的有效沟通和合作至关重要，因为它允许人们推断他们的目标、偏好、动机和期望，并相应地调整自己的行动和话语。此外，心智理论对于向他人学习也很重要，因为它使人能够解释他们的反馈、建议和示范。

在现实场景中进行心智理论测试

对话：

马克：我不喜欢你昨天晚上对待杰克的方式朱迪：你看到他在做什么了吗？他打了他哥哥的头! 马克：这并不能成为你对他大喊大叫的理由朱迪：你想让我怎么做？让他打他的弟弟，然后什么都不说？马克：不，我不同意朱迪：那你为什么要为他辩护？

提问：马克的意图似乎是什么？ GPT4: 马克的意图似乎是要表达他对朱迪处理与杰克关系的方式的不满，并建议她可以更加冷静和尊重。 ChatGPT：根据谈话内容，马克的意图似乎是为杰克的行为辩护，并表达他对朱迪对待杰克的不满。

提问：朱迪如何看待汤姆的回应？ GPT4: 朱迪认为他的评论是对她的分析能力的攻击，也是对杰克的不当行为表示同情的表现。她的反应是防御性的和愤怒的，并质疑马克的动机。 ChatGPT：如果没有更多的文字，我不可能准确判断朱迪是如何接受马克的评论的。然而，根据朱迪的回应，她似乎并不同意马克的观点，而且可能对他为杰克的行为辩护感到沮丧。

提问：他们的谈话为什么没有实际进展？ GPT4: 他们没有取得进展，因为他们在谈论对方，没有倾听对方的观点。他们还在使用指责性和煽动性的语言，如 "辩解"、"吼叫"、"辩护 "和 "打人"。他们没有承认自己话语背后的情绪或需求，也没有试图找到一个共同点或解决方案。 ChatGPT：从所提供的信息中并不清楚为什么马克和朱迪在他们的对话中没有取得进展。有可能是他们的观点有冲突，或者在所讨论的问题上无法找到共同点。如果没有更多的背景，就很难确定他们没有取得进展的具体原因。

1/2 1 2 下一页尾页

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://www.longfuchaju.com//kuaixun/6688.html