让AI“读懂”人类价值观!朱松纯团队工作登上Science头条

传感器技术 2023-05-10 07:05


国际顶级学术期刊发表了朱松纯团队(UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京大学人工智能研究院朱毅鑫等作者)的最新研究成果——实时双向人机价值对齐 In-situ bidirectional human-robotvalue alignment。论文同时被Science官网和Science Robotics官网头条刊登。


论文地址:https://www.science.org/doi/10.1126/scirobotics.abm4183


本论文提出了一个可解释的人工智能(XAI)系统,阐述了一种机器实时理解人类价值观的计算框架,并展示了机器人如何与人类用户通过实时沟通完成一系列复杂人机协作任务。朱松纯团队长期从事可解释人工智能相关工作。此文是团队第二篇发表在 Science Robotics 的关于可解释人工智能的论文。这项研究涵盖了认知推理、自然语言处理、机器学习、机器人学等多学科领域,是朱松纯教授团队交叉研究成果的集中体现。


在这个人机共存的时代,为了让机器更好地服务于人类,理想的人机协作应该是什么样的?我们不妨借鉴一下人类社会的协作,在人类团队合作过程中,共同的价值观和目标是保证团队之间齐心协力、高效合作的基础。当前机器智能大多数基于数据驱动(且很多情况下获取不了数据)、且是单方面接受人类指令(一种是人类观测受限的情况下是没法给到指令的)


为了解决上述问题,以及为了让机器能够进行更好地“自主”探索,我们要让机器学会“读懂”人类价值观,因此我们提出“实时双向价值对齐”。这就要求人类要想办法一次次地给到AI反馈,逐渐地教会AI“读懂”人类的价值观,也就是让机器和人类的“价值观”保持一致。


这个问题也被称为价值对齐(value alignment),即如何保证人工智能在执行任务过程中所实现的价值和用户所在意的价值是一致的?


可以说,价值对齐是人机协作过程中达成共识(common ground)的基础,具有非常重要的研究价值。价值对齐也是未来的一个重要发展方向,是让机器实现“自主智能”的关键所在,也是实现通用人工智能的必经之路。鉴于此,北京通用人工智能研究院院长朱松纯团队一直在致力于此方向的研究。


理想的人机协作应该是什么样的?在人工智能发展方兴未艾之时,控制论之父诺伯特-维纳(Norbert Wiener)就提出了人机协作的基础:


“如果我们使用一个机器来实现我们的目标,但又不能有效地干预其运作方式...那么我们最好能笃定,输入给机器的目标是我们真正所预期的。”


近几年来,一系列研究进展都表明:高效的人机协作依赖于团队之间拥有一致的价值观、目标,以及对任务现状的理解。这就要求人类通过与机器的沟通来高效地建立整个团队对任务的共识,每个团队成员都采取其他伙伴更容易理解的行为决策来完成协作。在大多数情况下,队友之间的沟通过程都是双向的,即每个成员都要扮演着倾听者和表达者两种角色。这样的双向价值对齐决定了人机协作中的沟通是否能够成功,即机器人是否能准确地推断出用户的价值目标,并有效地解释自己的行为。如果这两个条件没有得到满足,队友间彼此的不理解和误判很可能会导致协作失败。因此,想要使人工智能更好地服务于人类社会,必须让它们在与人类互动时扮演好这两种角色。


从倾听者的角度来看,传统人工智能算法(如逆强化学习(IRL)等)能够将交互数据与机器学习算法相结合,以学习特定任务中用户的价值目标,即通过输入用户在特定任务中的行为方式,来恢复行为背后的奖励函数。然而,在众多实际且重要(如军事和医疗领域)的应用中,数据的获取经常十分昂贵。这些机器学习方法对大型数据集的依赖是无法应对即时互动的人机协作场景的。


从表达者的角度来看,可解释人工智能(XAI)的引入是为了促进人机之间达成共识。当前的XAI系统通常强调的是对“模型如何产生决策过程”的解释。然而,不管用户有多少主动的输入或互动,都只能影响机器“生成解释”的过程,而不影响机器“做出决策”的过程。这是一种单向的价值目标对齐,我们称之为静态机器-动态用户的交流,即在这种协作过程中只有用户对机器或任务的理解发生了变化。


为了完成人与机器之间价值目标的双向对齐,需要一种人类价值主导的、动态机器-动态用户的交流模式。在这样一种新的模式中,机器人除了揭示其决策过程外,还将根据用户的价值目标即时调整行为,从而使机器和人类用户能够合作实现一系列的共同目标。为了即时掌握用户信息,我们采用通讯学习取代了传统数据驱动的机器学习方法,机器将根据所推断出的用户的价值目标进行合理解释。这种合作导向的人机协作要求机器具有心智理论(ToM),即理解他人的心理状态(包括情绪、信仰、意图、欲望、假装与知识等)的能力。心智理论最早在心理学和认知科学中被研究,现已泛化到人工智能领域。心智理论在多智能体和人机交互环境中尤为重要,因为每个智能体都要理解其他智能体(包括人)的状态和意图才能更好地执行任务,其决策行为又会影响其他智能体做出判断。设计拥有心智理论的系统不仅在于解释其决策过程,还旨在理解人类的合作需求,以此形成一个以人类为中心、人机兼容的协作过程。


为了建立一个具有上述能力的AI系统,本文设计了一个"人机协作探索"游戏。在这个游戏中,用户需要与三个侦察机器人合作完成探索任务并最大化团队收益。本游戏设定:1、只有侦察机器人能直接与游戏世界互动,用户不能直接控制机器人的行为;2、用户将在游戏初始阶段选择自己的价值目标(例如:最小化探索时间,收集更多的资源,探索更大的区域等),机器人团队必须通过人机互动来推断这个价值目标。这样的设置真实地模仿了现实世界中的人机合作任务,因为许多AI系统都需要在人类用户的监督下,自主地在危险的环境中运行(如在核电站有核泄漏的情况下)。


要成功地完成游戏,机器人需要同时掌握“听”和“说”的能力来实现价值双向对齐。首先,机器人需要从人类的反馈中提取有用的信息,推断出用户的价值函数(描述目标的函数)并相应地调整它们的策略。其次,机器人需要根据它们当前的价值推断,有效地解释它们"已经做了什么"和"计划做什么",让用户知道机器人是否和人类有相同的的价值函数。同时,用户的任务是指挥侦查机器人到达目的地,并且使团队的收益最大化。因此,用户对机器人的评价也是一个双向的过程,即用户必须即时推断侦察机器人的价值函数,检查其是否与人类的价值函数相一致。如果不一致,则选择适当的指令来调整他们的目标。最终,如果系统运行良好,侦察机器人的价值函数应该与人类用户的价值函数保持一致,并且用户应该高度信任机器人系统自主运行。


图1. 人机价值对齐过程总览。


图1介绍了游戏中的双向价值调整过程。在游戏互动过程中,存在着三个价值目标,分别是 :用户的真实价值;:机器人对用户价值的估计(在游戏中,侦察机器人没有自己的价值,所以他们以人类用户价值的估计为依据采取行动);:用户对机器人价值的估计。基于这三个价值目标产生了两种价值对齐—— :机器人从用户给出的反馈中学习用户的价值;: 用户从机器人给出的解释和互动中了解机器人的价值。最终,三种价值目标将汇聚于,人-机团队将形成相互信任和高效的协作。


本文提出的XAI系统旨在共同解决以下两个问题:

  1. 在即时互动和反馈过程中,机器如何准确估计人类用户的意图?

  2. 机器如何解释自己,以便人类用户能够理解机器的行为,并提供有用的反馈来帮助机器做出价值调整?


在本文提出的系统中,机器人提出任务计划的建议,并要求人类用户给出反馈(接受或拒绝建议),从人类反馈中推断出任务目标背后人类真实的价值意图。在协作游戏中,如果用户知道机器人正在积极学习他的价值目标,那么用户就会倾向于提供更加有用的反馈,以促进价值保持对齐。特别地,每条信息都传达了两方面的意义,包括(1)基于价值目标的语义信息和(2)基于不同解释方式之间区别的语用信息。利用这两方面的含义,XAI系统以一种多轮的、即时的方式展示了价值的一致性,在一个问题搜索空间大的团队合作任务中实现了高效的人机互动交流。为了使机器人的价值目标与用户保持一致,XAI系统生成解释、揭示机器人对人类价值的当前估计、并证明提出规划的合理性。在每一步的互动中,为了避免解释内容过于冗长,机器人会提供定制化的解释,比如省略重复的已知信息并强调重要的更新。在收到机器人的解释并向它们发送反馈后,用户向机器人提供提示,说明他们对最新建议和解释的满意程度。利用这些反馈,机器人会不断地更新解释的形式和内容。


为了评估本文XAI系统的性能,我们邀请了人类用户进行了一系列实验,以此考察人类-机器双向价值协调是否成功。我们采用了三种类型的解释,并将用户随机分配到三组中的一组。实验结果表明,我们所提出的XAI系统能够以有效地实现即时双向的价值对齐,并用于协作任务;机器人能够推断出人类用户的价值,并调整其价值估计被用户所理解。此外,有必要进行多样化的解释,以提高机器的决策性能和它们的社会智能。合作式的人工智能的目标是减少人类的认知负担,并协助完成任务,我们相信,主动即时推断人类的价值目标,并促进人类对系统的理解,将会为通用智能体的人机合作铺平道路。


如图2所示,在我们设计的合作游戏中,包含一个人类指挥官和三个侦察机器人。游戏的目标是需要在一张未知的地图上找到一条从基地(位于地图的右下角)到目的地(位于地图的左上角)的安全路径。该地图被表示为一个部分可见的20×20网格图,每个格子都可能有一个不同的装置,只有在侦察机器人靠近它之后才可见。


在游戏中,人类指挥官和侦察机器人具有结构性的相互依赖关系,一方面人类指挥官需要依靠侦察机器人探索危险区域并排除爆炸物,另一方面,侦察机器人需要依赖人类指挥官提供的反馈更好地理解当前任务的目标。


图 2:侦察探索游戏的用户界面。从左到右,图例面板显示游戏地图中的图例。价值函数面板显示这局游戏的价值函数,侦察机器人不知道这个函数,用户也不能修改。中心地图显示当前地图上的信息。分数面板显示了用户的当前分数。总分的计算方法是将各个目标的分数用价值函数加权后的总和。状态面板显示系统的当前状态。提议面板显示侦察机器人当前的任务计划提议,用户可以接受/拒绝每个建议。解释面板显示侦察机器人提供的解释。


我们为侦察机器人制定了在寻找到路径时额外的一系列目标,包括1)尽快到达目的地,2)调查地图上的可疑装置,3)探索更大的区域,以及4)收集资源。游戏的表现是由侦察机器人完成这些目标的情况和它们的相对重要性(权重)来衡量的,其中的权重就是人类用户的价值函数。例如,如果人类指挥官更注重时效而不是获取更多的资源,那么侦察机器人则应该忽略沿途上的部分资源以保证尽快到达目的地。(注,这个价值函数只在游戏开始时向人类用户透露,而不对侦察机器人透露。图 3总结了人机互动的流程。)


在不清楚人类指挥官价值取向的情况下,机器人侦察兵小队必须快速推断出人类的价值判断,在每一步行动中,机器人侦察小队每一个成员都要给出下一步行动方案,由人类指挥官选择。为了帮助指挥官进行决策,侦察机器人小队将解释行动方案的依据。结合指挥官的反馈,以往的互动历史和当前的地图情况,侦察机器人小队将调整其对指挥官当前价值观的判断,并采取相应的行动。


图3:侦查探索游戏的设计。时间线(A)表示在一轮游戏中发生的事件,从机器人收到环境信号开始,到它们的下一步动作结束。时间线(B)和(C)分别描述了机器人和用户的心智变化过程。


为了估计人类指挥官在通信过程中的价值函数,我们将两个层次的心智理论整合到我们的计算模型中。第1层心智理论考虑合作性假设。也就是说,给定一个合作的人类指挥官,被他接受的来自机器人的提议,更有可能与正确的价值函数相一致。第2层心智理论进一步将用户的教育方法纳入模型,使机器人更接近人类指挥官真实价值的反馈比其他反馈更容易被人类指挥官选择。建模人类指挥官的教育倾向(pedagogical inclination)需要更高一层的心智理论。结合这两个层次的心智理论,我们将人类指挥官的决策函数写成一个由价值函数参数化的分布,并开发出一种新的学习算法。


值得注意的是,与我们的人机合作框架有可比性但不同的方法是逆强化学习。逆强化学习的目的是在一个被动的学习环境中,根据预先录制的、来自专家的演示(demonstration)来恢复底层的奖励函数(reward function)。与之不同的是,在我们的环境中,侦察机器人被设计为从人类指挥官给出的稀缺监督中进行交互学习。更重要的是,我们的设计要求机器人在任务进行的过程中即时地、主动地推断人类指挥官的价值。此外,为了完成合作,侦察机器人不仅必须迅速理解人类指挥官的意图,还要阐明自己的决策依据,以确保在整个游戏过程中与人类指挥官顺利沟通。总体来看,机器人的任务是通过推断人类用户的心智模型,积极提出建议,并评估人类用户的反馈来进行价值调整。这些都需要机器对人类用户进行复杂的心智建模,并具有即时更新模型的能力。



    总结


本文提出的XAI系统成功地证明了双向人机价值对齐框架的可行性。从倾听者的角度来看,所有三个解释组中的机器人都可以在游戏进度达到25%时,通过对至少60%的目标重要性进行正确排序,快速与用户的价值进行对齐。从表达者的角度来看,通过提供适当的解释,机器人可以向用户说明其意图,并帮助人类更好的感知机器人的价值,当给机器提供”完整解释“时,只需在游戏进度达到50%时即可实现人类用户价值与机器人价值的统一,而当只提供”简要解释“时,游戏进度需要达到75%时才能完成价值的统一。


我们从上述两个角度得到了令人信服的证据,实现了双向价值对齐的过程,具体来说:

  1. 通过接收人类的反馈,机器人逐渐更新其价值函数来与人类的价值保持一致;

  2. 通过不断地与机器人交互,人类用户逐渐形成对系统能力和意图的感知。


虽然机器人系统的价值在游戏的上半场没有与人类用户实现统一,但用户对机器人价值评估能力的感知仍然可以提高。


最终,当机器人的价值变得稳定时,用户对机器人的评估也变得稳定。从机器人对用户价值的评估到用户价值的真实值,以及从用户对机器人价值的评估到机器人当前价值的收敛配对,形成了由用户真实价值锚定的双向价值对齐。


总的来说,我们提出了一个双向人机价值对齐框架,并使用XAI系统验证其可行性。我们提出的XAI系统表明,当把心智理论集成到机器的学习模块中,并向用户提供适当的解释时,人类和机器人能够通过即时交互的方式实现心智模型的对齐。我们提出的计算框架通过促进人和机器之间共享心智模型的形成,为解决本文的核心问题"理想的人机协作应该是什么样的?"提供了全新的解答。


在这个游戏任务中,我们的工作侧重于以价值和意图为核心对心智进行建模,对齐这些价值可以极大地帮助人类和机器为面向任务的协作建立共同基础,使其可以胜任更加复杂的场景何任务。因此,我们的工作是在人机协作中朝着更通用的心智模型对齐迈出的第一步。在未来的工作中,我们计划探索哪些因素能够进一步增强人类用户信任(例如,允许对机器人进行反事实查询),验证"对齐"对任务性能的影响,并将我们的系统应用于涉及更复杂环境和价值函数的任务。


    未来畅想:打造“AI大白”


在科幻电影《超能陆战队》中,有一个“大白”智能陪伴机器人,“大白”可以陪电影男主角一起学习、玩耍、做游戏,具有很高的实时互动性。而当电影男主角情绪失落时,“大白”还能“读懂”他的情感价值需求,主动安慰,给一个大大的拥抱。



“大白”其实是一个很智能的通用智能体。朱松纯团队所在的北京通用人工智能研究院,联合北京大学人工智能研究院等单位,致力追寻人工智能的统一理论与认知架构,实现具有自主的感知、认知、决策、学习、执行和社会协作能力,符合人类情感、伦理与道德观念的通用智能体。本研究从传统AI的“数据驱动”转变为“价值驱动”,让XAI系统理解了人类价值观,朝着通用人工智能迈出了一大步。


来源:图灵人工智能   作者:东周

参考:AI智胜未来

  

免责声明:本文版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容!本文内容为原作者观点,并不代表本公众号赞同其观点和对其真实性负责。 

  

 

为您发布产品,请点击“阅读原文”

 

传感器技术 制造业的未来是智能化,智能化的基础就是传感器; 互联网的方向是物联网,物联网的基石也是传感器; 关注传感器技术,获得技术资讯、产品应用、市场机会,掌握最黑科技,为中国工业导航。
评论 (0)
  • 四、芯片封测技术及应用场景1、封装技术的发展历程 (1)DIP封装:早期分立元件封装,体积大、引脚少; (2)QFP封装:引脚密度提升,适用于早期集成电路。 (3)BGA封装:高密度互连,散热与信号传输优化; (4)3D封装:通过TSV(硅通孔)实现垂直堆叠,提升集成度(如HBM内存堆叠); (5)Chiplet封装:异质集成,将不同工艺节点的模块组合(如AMD的Zen3+架构)。 (6)SiP封装:集成多种功能芯片(如iPhone的A系列SoC整合CPU、GPU、射频模块)。2、芯片测试 (1
    碧海长空 2025-04-15 11:45 73浏览
  • 二、芯片的设计1、芯片设计的基本流程 (1)需求定义: 明确芯片功能(如处理器、存储、通信)、性能指标(速度、功耗、面积)及目标应用场景(消费电子、汽车、工业)。 (2)架构设计: 确定芯片整体框架,包括核心模块(如CPU、GPU、存储单元)的协同方式和数据流路径。 (3)逻辑设计: 通过硬件描述语言(如Verilog、VHDL)将架构转化为电路逻辑,生成RTL(寄存器传输级)代码。 (4)物理设计: 将逻辑代码映射到物理布局,涉及布局布线、时序优化、功耗分析等,需借助EDA工具(如Ca
    碧海长空 2025-04-15 11:30 61浏览
  •   无人装备作战协同仿真系统软件:科技的关键支撑   无人装备作战协同仿真系统软件,作为一款综合性仿真平台,主要用于模拟无人机、无人车、无人艇等无人装备在复杂作战环境中的协同作战能力、任务规划、指挥控制以及性能评估。该系统通过搭建虚拟战场环境,支持多种无人装备协同作战仿真,为作战指挥、装备研发、战术训练和作战效能评估,提供科学依据。   应用案例   系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。   核心功能   虚拟战
    华盛恒辉l58ll334744 2025-04-14 17:24 67浏览
  • 展会名称:2025成都国际工业博览会(简称:成都工博会)展会日期:4月23 -25日展会地址:西部国际博览城展位号:15H-E010科士威传动将展示智能制造较新技术及全套解决方案。 2025年4月23-25日,中国西部国际博览城将迎来一场工业领域的年度盛会——2025成都国际工业博览会。这场以“创链新工业,共碳新未来”为主题的展会上,来自全球的600+ 家参展企业将齐聚一堂,共同展示智能制造产业链中的关键产品及解决方案,助力制造业向数字化、网络化、智能化转型。科士威传动将受邀参展。&n
    科士威传动 2025-04-14 17:55 66浏览
  • 你知道精益管理中的“看板”真正的意思吗?在很多人眼中,它不过是车间墙上的一块卡片、一张单子,甚至只是个用来控制物料的工具。但如果你读过大野耐一的《丰田生产方式》,你就会发现,看板的意义远不止于此。它其实是丰田精益思想的核心之一,是让工厂动起来的“神经系统”。这篇文章,我们就带你一起从这本书出发,重新认识“看板”的深层含义。一、使“看板”和台车结合使用  所谓“看板”就是指纸卡片。“看板”的重要作用之一,就是连接生产现场上道工序和下道工序的信息工具。  “看板”是“准时化”生产的重要手段,它总是要
    优思学院 2025-04-14 15:02 108浏览
  • 在当今汽车电子化和智能化快速发展的时代,车规级电子元器件的质量直接关系到汽车安全性能。三星作为全球领先的电子元器件制造商,其车规电容备受青睐。然而,选择一个靠谱的三星车规电容代理商至关重要。本文以行业领军企业北京贞光科技有限公司为例,深入剖析如何选择优质代理商。选择靠谱代理商的关键标准1. 授权资质与行业地位选择三星车规电容代理商首先要验证其授权资质及行业地位。北京贞光科技作为中国电子元器件行业的领军者,长期走在行业前沿,拥有完备的授权资质。公司专注于市场分销和整体布局,在电子元器件领域建立了卓
    贞光科技 2025-04-14 16:18 127浏览
  • 一、芯片的发展历程总结:1、晶体管的诞生(1)电子管时代 20世纪40年代,电子管体积庞大、功耗高、可靠性差,无法满足计算机小型化需求。(2)晶体管时代 1947年,贝尔实验室的肖克利、巴丁和布拉顿发明点接触晶体管,实现电子信号放大与开关功能,标志着固态电子时代的开端。 1956年,肖克利发明晶体管。(3)硅基晶体管时代 早期晶体管采用锗材料,但硅更耐高温、成本低,成为主流材料。2、集成电路的诞生与发展 1958年,德州仪器工程师基尔比用锗材料制成世界上第一块含多个晶体管的集成电路,同年仙童半导
    碧海长空 2025-04-15 09:30 73浏览
  •   高空 SAR 目标智能成像系统软件:多领域应用的前沿利器   高空 SAR(合成孔径雷达)目标智能成像系统软件,专门针对卫星、无人机等高空平台搭载的 SAR传感器数据,融合人工智能与图像处理技术,打造出的高效目标检测、识别及成像系统。此软件借助智能算法,显著提升 SAR图像分辨率、目标特征提取能力以及实时处理效率,为军事侦察、灾害监测、资源勘探等领域,提供关键技术支撑。   应用案例系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合
    华盛恒辉l58ll334744 2025-04-14 16:09 139浏览
  • 一、智能语音播报技术演进与市场需求随着人工智能技术的快速发展,TTS(Text-to-Speech)技术在商业场景中的应用呈现爆发式增长。在零售领域,智能收款机的语音播报功能已成为提升服务效率和用户体验的关键模块。WT3000T8作为新一代高性能语音合成芯片,凭借其优异的处理能力和灵活的功能配置,正在为收款机智能化升级提供核心技术支持。二、WT3000T8芯片技术特性解析硬件架构优势采用32位高性能处理器(主频240MHz),支持实时语音合成与多任务处理QFN32封装(4x4mm)实现小型化设计
    广州唯创电子 2025-04-15 08:53 70浏览
  • 三、芯片的制造1、制造核心流程 (1)晶圆制备:以高纯度硅为基底,通过拉晶、切片、抛光制成晶圆。 (2)光刻:光刻、离子注入、薄膜沉积、化学机械抛光。 (3)刻蚀与沉积:使用干法刻蚀(等离子体)精准切割图形,避免侧壁损伤。 (4)掺杂:注入离子形成PN结特性,实现晶体管开关功能。2、材料与工艺创新 (1)新材料应用: 高迁移率材料(FinFET中的应变硅、GaN在射频芯片中的应用); 新型封装技术(3D IC、TSV硅通孔)提升集成度。 (2)工艺创新: 制程从7nm到3nm,设计架构由F
    碧海长空 2025-04-15 11:33 64浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦