中国信通院于2025年3月正式启动“可信AI”AI Safety Benchmark大模型幻觉评测,旨在系统性评估大语言模型在生成内容时产生的“幻觉”问题,即模型输出看似合理但存在事实性错误或逻辑不一致的现象。
中国在人工智能安全治理领域迈出重要一步,尤其针对大模型在医疗、金融等高风险场景的潜在应用风险提出了针对性解决方案。
此次评测聚焦两大核心幻觉类型:事实性幻觉和忠实性幻觉。前者指模型生成内容与客观事实的偏离,后者则表现为输出结果与用户输入要求的逻辑不一致性。评测体系覆盖7000余条中文测试样本,通过信息抽取、知识推理(检测忠实性幻觉)和事实判别(检测事实性幻觉)三类题型展开。测试维度横跨人文科学、社会科学、自然科学、应用科学及形式科学五大领域,形成多层次、多维度的评估框架。

中国信通院表示,为摸清大模型的幻觉现状,推动大模型应用走深走实,中国信息通信研究院人工智能所基于前期的AI Safety Benchmark测评工作,发起大模型幻觉测试。本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:
评测工作的推进建立在中国信通院前期AI Safety Benchmark系列测评的积累之上。早在2024年,该机构已联合产业界开展多模态大模型安全基准测试,揭示出图文对抗攻击对模型安全性的显著威胁,为当前幻觉评测提供了方法论基础。例如2024年Q4测试显示,针对多模态模型的提示模板攻击可使内容有害率大幅上升,这一发现促使评测团队将语言模型的逻辑一致性纳入本次重点考察范畴。
本次评测特别强调产业协同,通过公开招募企业参与模型测试,推动技术研发与安全治理的平衡发展。
随着大模型技术加速渗透实体经济,此次评测的启动具有重要战略意义。它不仅为行业提供了统一的幻觉评估标尺,更通过量化分析模型弱点,推动安全技术创新。
