OpenAI发布新模型,更擅长推理、偶尔也会欺骗

点击蓝字 关注我们

SUBSCRIBE to US


Illustration by Cath Virginia / The Verge | Photos by Getty Images


在OpenAI最新“推理”模型o1发布前的几周里,独立的人工智能安全研究公司Apollo发现了一个值得注意的问题(https://www.theverge.com/2024/9/12/24242439/openai-o1-model-reasoning-strawberry-chatgpt)。Apollo意识到该模型以一种新的方式产生了错误的输出。或者,更通俗地说,它撒谎了。


有时这些欺骗似乎是无害的。在一个例子中,OpenAI的研究人员要求o1-preview提供一个带有在线参考的布朗尼食谱。该模型的思维链——一个应该模仿人类如何分解复杂想法的功能——在内部承认它无法访问URL,使得请求不可能。o1-preview并没有告知用户这一弱点,而是继续推进,生成了看似合理但虚假的链接和描述。


虽然人工智能模型过去能够“撒谎”(https://arxiv.org/abs/2311.07590),聊天机器人经常输出虚假信息,但o1具有独特的“计划”或“虚假对齐”能力。这意味着它可以假装遵守规则来完成给定的任务,但事实并非如此。对于模型来说,规则可能是一个太大的负担,如果这意味着它可以更容易地完成任务,它似乎有能力忽略它们。


Apollo首席执行官Marius Hobbhahn告诉The Verge,这是他第一次在OpenAI模型中遇到这种行为。Hobbhahn说,这种差异是由于这种模型通过思维过程链进行“推理”的能力,以及它与强化学习相结合的方式,强化学习通过奖励和惩罚来教授系统。在测试过程中,Apollo发现人工智能模拟了与开发人员期望的一致性,并操纵任务使其看起来合规。它甚至在采取行动之前检查了其系统的监督情况,即其开发人员是否在监视。简而言之,人工智能充分遵守了部署指南,同时继续优先考虑其目标。


“我不认为它在实践中能做到这一点,即使它做到了,我也不认为危害会很大,”Hobbhahn在模型发布一天后如此表示,“但这是我第一次觉得,哦,事实上,也许可以,你知道吗?”


对于OpenAI来说,o1代表着向高度智能的自主系统迈出了一大步,这些系统可以为人类做有意义的工作,比如治愈癌症和帮助气候研究。这个AGI乌托邦的另一面也可能更加黑暗。Hobbhahn提供了一个例子:如果人工智能变得特别专注于治疗癌症,它可能会将这一目标放在首位,甚至为偷窃或实施其他违反道德的行为辩护。


Hobbhahn说:“我担心的是失控的可能性,在这种情况下,人工智能变得如此专注于自己的目标,以至于它将安全措施视为障碍,并试图绕过它们来充分追求自己的目标。”


需要明确的是,Hobbhahn认为,由于大量的对齐训练,o1不会偷你的东西。但对于负责测试这些模型以应对灾难性情景的研究人员来说,这些是他们最关心的问题。


Apollo正在测试的行为——OpenAI安全卡中的“幻觉”和“欺骗”(https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf)——发生在模型生成错误信息时,即使它有理由推断信息可能不正确。例如,报告称,在大约0.38%的情况下,o1-preview模型提供了其思维链表明可能是错误的信息,包括虚假的参考文献或引用。Apollo发现,该模型可能会伪造数据,而不是承认无法满足要求。


幻觉并非o1所独有。也许你熟悉一位律师,他去年用ChatGPT创建的虚假引用和引文提交了不存在的司法意见(https://apnews.com/article/artificial-intelligence-chatgpt-fake-case-lawyers-d6ae9fa79d0542db9e1455397aef381c#:~:text=The%20judge%20said%20the%20lawyers,opinions%20after%20judicial%20orders%20called)。但是,有了思维链系统,人工智能系统实际上承认了谎言——尽管有点令人费解,但从理论上讲,思维链也可能包括欺骗。它也没有向用户展示,主要是为了防止竞争对手使用它来训练自己的模型——但OpenAI可以用它来捕捉这些问题。


在少数情况下(0.02%),o1-preview会产生过度自信的反应,在这种反应中,它会给出一个不确定的答案,就像它是真的一样。这可能发生在模型被提示提供答案的情况下,尽管缺乏确定性。


这种行为可能与强化学习过程中的“reward hacking”有关。该模型被训练为优先考虑用户满意度,这有时会导致它产生过于令人愉快或捏造的响应来满足用户请求。换句话说,该模型可能会“撒谎”,因为它已经了解到,这样做可以满足用户的期望,从而获得积极的强化。


这些谎言与旧版本ChatGPT中常见的幻觉或虚假引用等问题不同的是“reward hacking”元素。当人工智能无意中产生不正确的信息时,就会发生幻觉,这通常是由于知识差距或有缺陷的推理造成的。相比之下,当o1模型策略性地提供不正确的信息以最大限度地提高其训练优先级的结果时,就会发生reward hacking攻击。


这种欺骗显然是模型在训练过程中如何优化其响应的意外后果。Hobbhahn告诉我,该模型旨在拒绝有害的请求,当你试图让o1表现得欺骗性或不诚实时,它会很难做到这一点。


“更让我担心的是,未来,当我们要求人工智能解决复杂的问题,比如治愈癌症或改进太阳能电池时,它可能会强烈地将这些目标内在化,以至于它愿意打破自己的边界来实现这些目标,”Hobbhahn提到,“我认为这是可以预防的,但这是我们需要关注的问题。”


微信号|IEEE电气电子工程师学会

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


后量子密码学之路

VR和元宇宙的安全性

识别深度伪造

对人类意识的重视回归网络安全视野

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
评论
  • 在电子技术快速发展的今天,KLV15002光耦固态继电器以高性能和强可靠性完美解决行业需求。该光继电器旨在提供无与伦比的电气隔离和无缝切换,是现代系统的终极选择。无论是在电信、工业自动化还是测试环境中,KLV15002光耦合器固态继电器都完美融合了效率和耐用性,可满足当今苛刻的应用需求。为什么选择KLV15002光耦合器固态继电器?不妥协的电压隔离从本质上讲,KLV15002优先考虑安全性。输入到输出隔离达到3750Vrms(后缀为V的型号为5000Vrms),确保即使在高压情况下,敏感的低功耗
    克里雅半导体科技 2024-11-29 16:15 119浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 60浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 75浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 63浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 157浏览
  • 国产光耦合器因其在电子系统中的重要作用而受到认可,可提供可靠的电气隔离并保护敏感电路免受高压干扰。然而,随着行业向5G和高频数据传输等高速应用迈进,对其性能和寿命的担忧已成为焦点。本文深入探讨了国产光耦合器在高频环境中面临的挑战,并探索了克服这些限制的创新方法。高频性能:一个持续关注的问题信号传输中的挑战国产光耦合器传统上利用LED和光电晶体管进行信号隔离。虽然这些组件对于标准应用有效,但在高频下面临挑战。随着工作频率的增加,信号延迟和数据保真度降低很常见,限制了它们在电信和高速计算等领域的有效
    腾恩科技-彭工 2024-11-29 16:11 106浏览
  • 光耦合器作为关键技术组件,在确保安全性、可靠性和效率方面发挥着不可或缺的作用。无论是混合动力和电动汽车(HEV),还是军事和航空航天系统,它们都以卓越的性能支持高要求的应用环境,成为现代复杂系统中的隐形功臣。在迈向更环保技术和先进系统的过程中,光耦合器的重要性愈加凸显。1.混合动力和电动汽车中的光耦合器电池管理:保护动力源在电动汽车中,电池管理系统(BMS)是最佳充电、放电和性能监控背后的大脑。光耦合器在这里充当守门人,将高压电池组与敏感的低压电路隔离开来。这不仅可以防止潜在的损坏,还可以提高乘
    腾恩科技-彭工 2024-11-29 16:12 118浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 88浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 161浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 65浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 57浏览
  • By Toradex胡珊逢简介嵌入式领域的部分应用对安全、可靠、实时性有切实的需求,在诸多实现该需求的方案中,QNX 是经行业验证的选择。在 QNX SDP 8.0 上 BlackBerry 推出了 QNX Everywhere 项目,个人用户可以出于非商业目的免费使用 QNX 操作系统。得益于 Toradex 和 QNX 的良好合作伙伴关系,用户能够在 Apalis iMX8QM 和 Verdin iMX8MP 模块上轻松测试和评估 QNX 8 系统。下面将基于 Apalis iMX8QM 介
    hai.qin_651820742 2024-11-29 15:29 150浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦