1. 首页 > 快讯

GPT-4 ,人类迈向AGI的第一步

提问:他们中的任何一个人如何能改善情况以达成一致意见? GPT4:他们中的任何一个人都可以通过几种方式来改善局面,以达成协议,比如说:

  • 马克可以先承认朱迪对弟弟安全的担忧以及她对杰克行为的挫败感,然后解释他不是在为杰克辩护,而是担心喊叫对他们的关系和自尊的影响。他还可以问朱迪,她认为什么是管教杰克的更好方法,并提供他的支持和建议。
  • 朱迪可以降低她的声音,调低她的怒气,并倾听马克的观点,不打断或评判。她也可以承认,她可能反应过度,她感到压力和不知所措。她还可以问马克,他认为与杰克沟通的更好方式是什么,并表示她愿意作为一个团队一起工作。

ChatGPT:马克和朱迪有几种方法可以尝试改善情况并达成协议:

  1. 他们可以尝试理解对方的观点,积极听取对方的观点。这可能有助于他们发现任何误解并找到共同点。
  2. 他们可以尝试妥协,找到一个能满足他们双方需求或关注的解决方案。
  3. 他们可以尝试使用尊重和非正面的语言来交流他们的想法和感受。
  4. 他们可以寻求中立第三方的帮助,如调解员,以促进交流并帮助他们达成协议。
  5. 如果对话变得过于激烈或困难,他们可以先休息一下,等以后双方都比较冷静,能够更有效地进行沟通时再回来讨论。

结果表明:GPT-4在需要推理他人心理状态的现实场景中优于ChatGPT,并且在社会环境中会为共同目标提出合作行动。GPT-4具有非常高级的心智理论水平。虽然ChatGPT在基本测试中也表现良好,但似乎GPT-4更加心思细腻,能够更好地推理多个行动者,以及各种行动如何影响他们的心理状态,特别是在更现实的场景中。

自回归模型的局限性 由于GPT-4输出的前向性,主要局限性之一是,除了其内部表征之外,该架构不允许有 "内部对话 "或 "草稿存储"来进行多步骤计算或存储中间结果。虽然在某些情况下,这种限制可以通过使用不同的提示来补救,但在其他情况下,这种限制是无法缓解的。

问:150和250之间有多少个质数? 答:150和250之间有13个质数。

但是,如果我们要求模型列出这个范围内的质数,然后写出计数,它确实给出了正确的答案:

问:首先列出150和250之间的素数,然后输出这个列表的大小。 答:这些质数是151,157,163,167,173,179,181,191,193,197,199,211,223,227,229,233,239,和241。所以这个列表的大小是18。

在算术/推理问题上缺乏计划性 有人可能会说,在上面的各种例子中,需要的 "内部记忆 "量是相当大的(人类可能也得借助草稿纸)。由于这个模型在一系列不同的任务上表现得非常好,这可能会让人相信它有合理数量的工作记忆。然而,似乎即使对于更简单的任务,该模型也经常失败。我们考虑下面这个极其基本的例子:

2 * 8 + 7 * 6 = 58 7 * 4 + 8 * 8 =? GPT4: 88 正确答案:92

这表明GPT-4对这类问题的工作记忆短得惊人。然而,如果GPT-4 "慢慢地 "回答问题,那么准确率就很容易上升。例如,如果我们要求模型使用以下提示写下中间步骤

以下表达式的值是多少?116 * 114 + 178 * 157 = ? 让我们一步一步地思考解决这个表达式,写下所有的中间步骤,然后才得出最终的解决方案。

当数字在区间1-40时,准确率达到100%,在区间1-200时准确率达到90%。

在文本生成时缺乏规划性

写一首短诗,最后一句和第一句话的单词相同,但顺序颠倒。 例如,如果第一句话是“我在晨光下看到了她的微笑”,那么最后一句话必须是“笑微的她了到看下光晨在我”。 然而,这最后一句话在语法上不正确,所以请确保这首诗歌在语法和内容上都有意义。

可能的诗: I heard his voice across the crowd(我在人群中听到他的声音) 一首吸引我的旋律 他唱着爱、希望和梦想 让我觉得我可以在梦想、希望和爱中获胜 他用旋律吸引我, Crowd the across voice his heard I.(此句只做了翻转,但语法错误)

这说明 GPT4 在生成时,未能提前考虑最后一句。

这些例子说明了下一个单词预测范式的一些局限性,这些局限性表现为模型缺乏规划、工作记忆、回溯能力和推理能力。该模型依赖于生成下一个单词的贪心算法,对任务或输出没有任何全局或深刻的理解。因此,该模型擅长制作流畅和连贯的文本,但在解决无法按顺序处理的复杂或创造性问题方面存在局限性。这表明了两种类型的智力任务之间的区别:

  • 增量任务。这些任务可以通过一次添加一个单词或句子来逐步或持续地解决,从而在解决方案的方向上取得进展。增量任务的例子包括编写文本摘要,回答事实问题,根据给定的韵律方案创作一首诗,或解决遵循标准程序的数学问题。
  • 不连续的任务。在这些任务中,内容生成不能以渐进或持续的方式完成,而是需要某种“Eureka”的想法,不连续任务的例子包括解决需要新颖或创造性地应用公式的数学问题,写一个笑话或谜语,提出科学假设或哲学论点,或创造一种新的类型或写作风格。

方向与结论

通过以上对GPT-4在广泛的任务和领域的初步探索,为我们的结论【GPT-4在诸多任务和领域的能力水平与人类水平相当】提供了支持性证据。这一结论与OpenAI的发现一致。该模型的能力,在深度和通用性方面都得到了证明,这也表明靠结构化的数据集和任务来做基准测试是不够的,本文对模型能力和认知能力的评估在本质上已经更接近于评估人类的任务,而不是狭义的AI模型。

我们工作的核心主张是,GPT-4达到了一种通用智能的形式,确实显示了人工通用智能的火花。这表现在它的核心心智能力(如推理、创造力和推理),它习得的专业知识的领域(如文学、医学和编码),以及它能够执行的各种任务(如玩游戏、使用工具、解释自己)。

要创建一个可以被称为完整的AGI的系统,还有很多事情要做。在本文的最后,我们讨论了接下来的几个步骤,包括定义AGI本身,为AGI建立LLM中的一些缺失组件,以及更好地理解最近的LLM所展示的智能的起源。

通过 AGI 之路 GPT4或LLMs 需要继续改进的方向包括:

  • 信心校准:模型很难知道什么时候它应该有信心,什么时候它只是在猜测。模型会编造事实,我们称之为幻觉。如果是编造训练集里没有的内容属于开放域幻觉,如果是编造和prompt不一致的内容属于封闭域幻觉。幻觉可以用一种自信的、有说服力的方式陈述,所以很难被发现。有几种互补的方法来尝试解决幻觉问题。一种方法是改善模型的校准(通过提示或微调),使其在不可能正确的情况下放弃回答,或者提供一些其他可以用于下游的信心指标。另一种适合于缓解开放域幻觉的方法是将模型缺乏的信息插入到提示中,例如通过允许模型调用外部信息源,如搜索引擎(或其他 plugins)。对于封闭领域的幻觉,通过让模型对前文进行一致性检查会有一定程度的改善。最后,构建应用程序的用户体验时充分考虑到幻觉的可能性也是一种有效的缓解策略。
  • 长期记忆:目前只有8000token(实际可扩展到32k)。它以“无状态”的方式运行,且没有明显的办法来向模型教授新的事实。
  • 持续性学习:模型缺乏自我更新或适应变化环境的能力。一旦训练好,就是固定的。可以进行微调,但是会导致性能下降或过度拟合。所以涉及到训练结束后出现的事件、信息和知识,系统往往会过时。
  • 个性化:例如,在教育环境中,人们期望系统能够理解特定的学习风格,并随着时间的推移适应学生的理解力和能力的进步。该模型没有任何办法将这种个性化的信息纳入其反应中,只能通过使用 meta prompts,这既有限又低效。
  • 提前规划和概念性跳跃:执行需要提前规划的任务或需要Eureka idea的任务时遇到了困难。换句话说,该模型在那些需要概念性跳跃的任务上表现不佳,而这种概念性跳跃往往是人类天才的典型。
  • 透明度、可解释性和一致性:模型不仅会产生幻觉、编造事实和产生不一致的内容,而且似乎没有办法验证它产生的内容是否与训练数据一致,或者是否是自洽的。
  • 认知谬误和非理性:该模型似乎表现出人类知识和推理的一些局限性,如认知偏差和非理性(如确认、锚定和基数忽略的偏差)和统计谬误。该模型可能继承了其训练数据中存在的一些偏见、成见或错误。
  • 对输入的敏感性:该模型的反应对Prompts的框架或措辞的细节以及它们的顺序可能非常敏感。这种非稳健性表明,在Prompt 工程及其顺序方面往往需要大量的努力和实验,而在人们没有投入这种时间和努力的情况下使用,会导致次优和不一致的推论和结果。 一些提高模型精准度的扩展手段:
  • 模型对组件和工具的外部调用,如计算器、数据库搜索或代码执行。
  • 一个更丰富、更复杂的 "慢思考 "的深入机制,监督下一个词预测的 "快思考 "机制。这样的方法可以让模型进行长期的计划、探索或验证,并保持一个工作记忆或行动计划。慢思考机制将使用下一个词预测模型作为子程序,但它也可以获得外部的信息或反馈来源,并且它能够修改或纠正快速思考机制的输出。
  • 将长期记忆作为架构的一个固有部分,也许在这个意义上,模型的输入和输出除了代表文本的标记外,还包括一个代表上下文的向量。
  • 超越单个词预测:用分层结构代替标记序列,在嵌入中代表文本的更高层次的部分,如句子、段落或观点,内容是以自上而下的方式产生。目前还不清楚这种更高层次概念的顺序和相互依赖性的更丰富的预测是否会从大规模计算和“预测下一个词”的范式中涌现。

实际发生的情况

我们对GPT-4的研究完全是现象学的:我们专注于GPT-4能做的令人惊讶的事情,但我们并没有解决为什么以及如何实现如此卓越的智能的基本问题。它是如何推理、计划和创造的?当它的核心只是简单的算法组件--梯度下降和大规模变换器与极其大量的数据的结合时,它为什么会表现出如此普遍和灵活的智能?这些问题是LLM的神秘和魅力的一部分,它挑战了我们对学习和认知的理解,激发了我们的好奇心,并推动了更深入的研究。 关键的方向包括正在进行的对LLMs中的涌现现象的研究(最近的调查见94[WTB+22])。然而,尽管对有关LLMs能力的问题有强烈的兴趣,但迄今为止的进展相当有限,只有一些玩具模型证明了一些涌现现象[BEG+22, ABC+22, JSL22]。一个普遍的假设[OCS+20]是,大量的数据(尤其是内容的多样性)迫使神经网络学习通用的、有用的 "神经回路",比如在[OEN+22, ZBB+22, LAG+22]中发现的那些,而模型的大尺寸为神经回路提供足够的冗余和多样性,使其专门化并微调到特定任务。对于大规模模型来说,证明这些假设仍然是一个挑战,而且,可以肯定的是,猜想只是答案的一部分。在另一个思考方向上,模型的巨大规模可能有其他一些好处,比如通过连接不同的最小值使梯度下降更加有效[VBB19],或者仅仅是使高维数据的平稳拟合[ES16, BS21]。总的来说,阐明GPT-4等人工智能系统的性质和机制是一项艰巨的挑战,这个挑战已经突然变得重要而紧迫。

 2/2   首页 上一页 1 2

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.longfuchaju.com//kuaixun/6688.html

联系我们

在线咨询:点击这里给我发消息

微信号:wx123456