点击蓝字 关注我们
SUBSCRIBE to US
Illustration by Cath Virginia / The Verge | Photos by Getty Images
在OpenAI最新“推理”模型o1发布前的几周里,独立的人工智能安全研究公司Apollo发现了一个值得注意的问题(https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt)。Apollo意识到该模型以一种新的方式产生了错误的输出。或者,更通俗地说,它撒谎了。
有时这些欺骗似乎是无害的。在一个例子中,OpenAI的研究人员要求o1-preview提供一个带有在线参考的布朗尼食谱。该模型的思维链——一个应该模仿人类如何分解复杂想法的功能——在内部承认它无法访问URL,使得请求不可能。o1-preview并没有告知用户这一弱点,而是继续推进,生成了看似合理但虚假的链接和描述。
虽然人工智能模型过去能够“撒谎”(https://arxiv.org/abs/2311.07590),聊天机器人经常输出虚假信息,但o1具有独特的“计划”或“虚假对齐”能力。这意味着它可以假装遵守规则来完成给定的任务,但事实并非如此。对于模型来说,规则可能是一个太大的负担,如果这意味着它可以更容易地完成任务,它似乎有能力忽略它们。
Apollo首席执行官Marius Hobbhahn告诉The Verge,这是他第一次在OpenAI模型中遇到这种行为。Hobbhahn说,这种差异是由于这种模型通过思维过程链进行“推理”的能力,以及它与强化学习相结合的方式,强化学习通过奖励和惩罚来教授系统。在测试过程中,Apollo发现人工智能模拟了与开发人员期望的一致性,并操纵任务使其看起来合规。它甚至在采取行动之前检查了其系统的监督情况,即其开发人员是否在监视。简而言之,人工智能充分遵守了部署指南,同时继续优先考虑其目标。
“我不认为它在实践中能做到这一点,即使它做到了,我也不认为危害会很大,”Hobbhahn在模型发布一天后如此表示,“但这是我第一次觉得,哦,事实上,也许可以,你知道吗?”
对于OpenAI来说,o1代表着向高度智能的自主系统迈出了一大步,这些系统可以为人类做有意义的工作,比如治愈癌症和帮助气候研究。这个AGI乌托邦的另一面也可能更加黑暗。Hobbhahn提供了一个例子:如果人工智能变得特别专注于治疗癌症,它可能会将这一目标放在首位,甚至为偷窃或实施其他违反道德的行为辩护。
Hobbhahn说:“我担心的是失控的可能性,在这种情况下,人工智能变得如此专注于自己的目标,以至于它将安全措施视为障碍,并试图绕过它们来充分追求自己的目标。”
需要明确的是,Hobbhahn认为,由于大量的对齐训练,o1不会偷你的东西。但对于负责测试这些模型以应对灾难性情景的研究人员来说,这些是他们最关心的问题。
Apollo正在测试的行为——OpenAI安全卡中的“幻觉”和“欺骗”(https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf)——发生在模型生成错误信息时,即使它有理由推断信息可能不正确。例如,报告称,在大约0.38%的情况下,o1-preview模型提供了其思维链表明可能是错误的信息,包括虚假的参考文献或引用。Apollo发现,该模型可能会伪造数据,而不是承认无法满足要求。
幻觉并非o1所独有。也许你熟悉一位律师,他去年用ChatGPT创建的虚假引用和引文提交了不存在的司法意见(https://apnews.com/article/artificial-intelligence-chatgpt-fake-case-lawyers-d6ae9fa79d0542db9e1455397aef381c#:~:text=The%20judge%20said%20the%20lawyers,opinions%20after%20judicial%20orders%20called)。但是,有了思维链系统,人工智能系统实际上承认了谎言——尽管有点令人费解,但从理论上讲,思维链也可能包括欺骗。它也没有向用户展示,主要是为了防止竞争对手使用它来训练自己的模型——但OpenAI可以用它来捕捉这些问题。
在少数情况下(0.02%),o1-preview会产生过度自信的反应,在这种反应中,它会给出一个不确定的答案,就像它是真的一样。这可能发生在模型被提示提供答案的情况下,尽管缺乏确定性。
这种行为可能与强化学习过程中的“reward hacking”有关。该模型被训练为优先考虑用户满意度,这有时会导致它产生过于令人愉快或捏造的响应来满足用户请求。换句话说,该模型可能会“撒谎”,因为它已经了解到,这样做可以满足用户的期望,从而获得积极的强化。
这些谎言与旧版本ChatGPT中常见的幻觉或虚假引用等问题不同的是“reward hacking”元素。当人工智能无意中产生不正确的信息时,就会发生幻觉,这通常是由于知识差距或有缺陷的推理造成的。相比之下,当o1模型策略性地提供不正确的信息以最大限度地提高其训练优先级的结果时,就会发生reward hacking攻击。
这种欺骗显然是模型在训练过程中如何优化其响应的意外后果。Hobbhahn告诉我,该模型旨在拒绝有害的请求,当你试图让o1表现得欺骗性或不诚实时,它会很难做到这一点。
“更让我担心的是,未来,当我们要求人工智能解决复杂的问题,比如治愈癌症或改进太阳能电池时,它可能会强烈地将这些目标内在化,以至于它愿意打破自己的边界来实现这些目标,”Hobbhahn提到,“我认为这是可以预防的,但这是我们需要关注的问题。”
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
后量子密码学之路
VR和元宇宙的安全性
识别深度伪造
对人类意识的重视回归网络安全视野