中国在人工智能安全治理领域迈出重要一步,尤其针对大模型在医疗、金融等高风险场景的潜在应用风险提出了针对性解决方案......

中国信通院于2025年3月正式启动“可信AI”AI Safety Benchmark大模型幻觉评测,旨在系统性评估大语言模型在生成内容时产生的“幻觉”问题,即模型输出看似合理但存在事实性错误或逻辑不一致的现象。

中国在人工智能安全治理领域迈出重要一步,尤其针对大模型在医疗、金融等高风险场景的潜在应用风险提出了针对性解决方案。

此次评测聚焦两大核心幻觉类型:​事实性幻觉和忠实性幻觉。前者指模型生成内容与客观事实的偏离,后者则表现为输出结果与用户输入要求的逻辑不一致性。评测体系覆盖7000余条中文测试样本,通过信息抽取、知识推理​(检测忠实性幻觉)和事实判别​(检测事实性幻觉)三类题型展开。测试维度横跨人文科学、社会科学、自然科学、应用科学及形式科学五大领域,形成多层次、多维度的评估框架。

中国信通院表示,为摸清大模型的幻觉现状,推动大模型应用走深走实,中国信息通信研究院人工智能所基于前期的AI Safety Benchmark测评工作,发起大模型幻觉测试。本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:

评测工作的推进建立在中国信通院前期AI Safety Benchmark系列测评的积累之上。早在2024年,该机构已联合产业界开展多模态大模型安全基准测试,揭示出图文对抗攻击对模型安全性的显著威胁,为当前幻觉评测提供了方法论基础。例如2024年Q4测试显示,针对多模态模型的提示模板攻击可使内容有害率大幅上升,这一发现促使评测团队将语言模型的逻辑一致性纳入本次重点考察范畴。

本次评测特别强调产业协同,通过公开招募企业参与模型测试,推动技术研发与安全治理的平衡发展。

随着大模型技术加速渗透实体经济,此次评测的启动具有重要战略意义。它不仅为行业提供了统一的幻觉评估标尺,更通过量化分析模型弱点,推动安全技术创新。

责编:Amy.wu
您可能感兴趣
Microchip的决策将被视为半导体行业从“产能扩张”转向“产能优化”的标志。
华为Pura X是一款全新形态的折叠手机,定位为“超级移动娱乐终端”,具备多项创新功能和强大性能。
与珠海市早期的产业核心和关键技术攻关方向项目相比,此次政策的资助额度更高(最高3000万元),支持力度更大。
三星电子高管认为,韩国现行的每周52小时工作制已成为制约半导体技术突破的关键障碍。目前,韩国政界正在讨论是否允许半导体研发人员在特定条件下延长工作时间。此外,三星高管向投资者表示,2025年将是困难的一年,三星将进行“有意义的”并购,以解决投资者对增长的担忧......
欧洲在过去40年中并未占据全球芯片市场的显著份额,且第一版法案的实施仍面临诸多挑战。
中芯国际除了获得由之前的 A 级提升至 AA- 级的品牌强度指数 (BSI) 评级外,其 BSI 得分还增长了 15%,达到 67.7(满分 100)。​长电科技的品牌价值同比增长14%至6.67亿美元,今年位列第 29 位。中国品牌代表呈现正增长......
针对溶剂型三防漆的不足,汉高推出了一款新型UV固化无溶剂型三防漆:Loctite Stycast CC 8555,不含挥发性有机化合物(VOC)的单组分配方,可在户外电动汽车充电站等极端环境中为大功率电子设备提供坚固的PCB和组件保护。
先进制程的产能利用率依然维持在高位,主要受 AI 及旗舰智能手机需求驱动,尤其是TSMC的 N3 和 N5 制程。与此同时,全球(不含中国)的成熟制程晶圆代工厂仍面临较低的产能利用率困境,本季度整体利用率徘徊在 65%-70% 之间。
开关与仿真技术的创新成果与公司里程碑
坚守初心、笃行不怠。近日,国产数字前端FPGA原型验证和硬件仿真加速器EDA工具及解决方案资深供应商--无锡亚科鸿禹电子有限公司完成B轮融资首关交割,首阶段募集资金由绍兴九天
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,2025 年 3 月 20 日,华为在上海举办的 Pura 先锋盛典及鸿蒙智行新品发布会上,华为常务董事、智能汽车解决方案 BU 董事长
大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是缘分。大侠可以关注FPGA技术江湖,在“闯荡江湖”、"行侠仗义"栏里获取其他感兴趣的资源,或者一起煮酒言欢。今天给大侠带来的是一周掌握FPGA Ve
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,3月19日,据腾讯汽车报道,哪吒汽车计划转型服务商,类似汽车界IBM的服务型公司。2025 年 3 月 19 日,哪吒汽车在总部召开供应
点击左上角“锂电联盟会长”,即可关注!维科网锂电获悉,3月20日,SK On宣布,其与日产汽车签署了电池供应协议。根据协议,SK On将从2028年至2033年为日产供应近100GWh的美国制造的高性
技术改变生活,我们每一个人或多或少的享受着技术进步带来的福利。5G网络让数据的远程传输变得快速,由千里之外的医生主刀一场远程实时手术,这种看起来有一些魔幻的事情,已经成为现实。AI这个新技术的出现,会
点击上方“C语言与CPP编程”,选择“关注/置顶/星标公众号”干货福利,第一时间送达!最近有小伙伴说没有收到当天的文章推送,这是因为微信更改了推送机制,导致没有星标公众号的小伙伴刷不到当天推送的文章,
点击左上角“锂电联盟会长”,即可关注!【研究背景】传统的锂离子电池健康状态(SOH)估计方法通常依赖于基于模型的策略或需要复杂特征工程的数据驱动技术。尽管现有方法已显著提升SOH的预测精度,但在处理短
3月19日上午,冠石科技(605588)全资子公司——宁波冠石半导体有限公司(下称:宁波冠石半导体)在宁波市前湾新区举行开业典礼以及新品发布和通线仪式。宁波前湾新区管委会主任、党工委副书记王兆波与宁波
2025年3月20日,今日,健选商城正式发布旗下全新高端智能新能源汽车品牌——“健行”,计划于2026年正式上市。“健行”品牌致力于融合前沿科技,重新定义未来出行方式。
日前,鸿蒙游戏开发者服务日在成都成功举办,全新升级的鸿蒙游戏开发者服务正式亮相,吸引来自各界的开发者、行业专家关注。为助力开发者快速全面了解鸿蒙游戏,打破鸿蒙游戏开发的技术壁垒,提升游戏的研运效率,华