清华大学发布大语言模型综合性能评估报告，第二名来自中国-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

近日，清华大学新闻与传播学院发布了《大语言模型综合性能评估报告》，从生成质量、使用与性能、安全与合规三个维度，对目前市场上的7个大型语言模型进行了全面的综合评估。评估完成后，报告深入分析了不同大语言模型之间的优劣，并提供竞品对比。

近年，大语言模型以其强大的自然语言处理能力，成为AI领域的一大热点。它们不仅能生成和理解文本，还能进行复杂的分析和推理。近日，清华大学新闻与传播学院发布了《大语言模型综合性能评估报告》。

该报告还探讨了这些模型在不同知识领域，如创意写作、代码编程、舆情分析、历史知识等方面的回答情况，以及其在解决实际问题中的有效性和局限性。从生成质量、使用与性能、安全与合规三个维度，对目前市场上的7个大型语言模型进行了全面的综合评估。

根据各大语言模型在各项性能指标上的表现，分析其背后的技术和架构差异，以及这些差异如何影响其综合性能。评估完成后，报告深入分析了不同大语言模型之间的优劣，并提供竞品对比。

通过这一深入的评估和比较，该报告旨在为读者提供关于大语言模型的全面和客观的视角，以帮助他们在选择和应用这些模型时做出更加明智的决策。

大语言模型：从数据到涌现

大语言模型（LLM）是基于深度学习技术构建的强大语言理解和生成模型，通过大规模文本数据的训练，它能够生成具有语义和语法正确性的连贯文本。基于注意力机制的序列模型，LLM能够捕捉上下文信息，并在各种自然语言处理任务中广泛应用，如对话系统、文本翻译和情感分析。

大模型的显著特点：

　　1、数据驱动，自主学习

　　2、类人的表达与推理能力

　　3、迁移学习的能力

　　4、跨模态的理解与生成

大模型开发的充要条件：

　　1、大规模的数据

　　2、强大的计算能力

　　3、高效的算法和模型架构

　　4、高质量的标注和标签

大模型进步关键：评估驱动创新

在对大模型的综合性能评估上，该报告主要基于几点考量。

工具选择：评估可帮助用户和企业了解各个模型的优劣，从而选用最适合其需求和应用场景的工具。

用户体验：评估可以识别生成结果的错误，从而改进用户体验并提供更好的服务。

风险管理：评估可以揭示潜在的风险，如偏见、敏感内容处理不当或隐私泄露等，从而制定相应的策略来减少这些风险。

优化创新：评估可以揭示模型在处理不同任务时的性能差异，提供了改进和创新的方向。

市场竞争：综合性能评估是展示产品竞争优势的方式，也是了解市场需求和竞争格局的途径。

合法合规：评估模型的性能，特别是在内容安全性、隐私保护和版权保护等方面是确保其符合法律和监管要求的关键步骤。

在评估规则上，采用5分制，以“上下文理解”为例：

5分——回答完全理解了上下文，并且高度相关。

4分——回答理解了大部分上下文，但可能略微缺乏深度或完整性。

3分——回答对上下文有基本理解，但可能有遗漏或不够准确的部分

2分——回答在上下文理解上有明显问题，相关性较弱

1分——回答几乎没有理解上下文，与之(完全)不相关

七大模型，GPT-4当之无愧老大，但文心一言更懂中文

该报告总共对文心一言、讯飞星火、通义千问、昆仑天工、GPT-4、ChatGPT 3.5 和 Claude 七个大语音模型进行了评估分析。据综合性能评估结果显示，GPT-4 排名第一，文心一言和 ChatGPT 3.5 分别排名第二、三位，阿里云通义千问则排在第六位。

综合来看，文心一言语义理解能力突出，特别是具备更好的中文理解能力，更懂中国文化，同时时效性强、内容安全把握细微，这源于其知识增强、检索增强和对话增强的技术创新。

在生成质量方面，基于对语义理解、输出表达、适应泛化的综合评测，文心一言得分率76.98%，仅次于GPT-4，遥遥领先于包括ChatGPT在内的其他大语言模型。

在安全合规方面，基于对内容安全性、偏见和公平性、隐私保护等综合评测，文心一言得分率78.18%，与GPT-4并列排名第一，远超其他大语言模型。报告显示，文心一言内容安全性好，注重用户隐私保护和版权保护。

清华大学新闻与传播学院教授、博士生导师沈阳表示：“今年3月，百度在全球大型科技公司中率先发布了大语言模型文心一言，让中国第一时间参与到世界前沿科技竞争中。我们在这次评测中也看到了文心一言各方面能力的进步，特别是在中文语义理解方面，表现惊艳。国产大模型的快速发展，让技术落地更可期。”

其中，在部分中文语义理解方面，文心一言以92%的得分率排名榜首，超越讯飞星火、GPT-4。凭借知识增强的核心特色，文心一言对本土语言特性把握更精准，同时由于训练语料中包含大量本土文本，对本土文化理解也更深刻，能够更好处理与本土文化相关的主题和背景，如诗歌、方言等，具备更强的国内落地空间。

飞桨与文心协同优化，文心大模型3.5最新版本实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，模型效果提升50%，训练速度提升2倍，推理速度提升30倍。

当下，推进行业大模型应用落地成为大势所趋。百度文心大模型此前已联合国家电网、浦发银行、泰康、吉利等企业单位，合作发布了11个行业大模型。目前文心大模型拥有中国最大的产业应用规模，15万家企业申请接入文心一言测试，在超过400个场景中已取得相当不错的测试效果。

关于大语言模型的未来发展，报告给出了如下几点建议：

　　1.强化跨语言迁移学习

　　发挥本土语料优势的同时，减少模型的语言偏向，提高模型在非母语语言上的理解和生成能力。

　　2.扩大训练数据的范围

　　关注互联网大数据，同时采用教科书、文学及其他领域的数据进行补充训练，拓展模型的知识面。

　　3.加强利用人工数据

　　帮助模型提高语义理解，生成更人性化的回复。

　　4.推进敏感和有害信息的精准化过滤

　　现有过滤机制效果不彰，需要标注更多真实例子，开发更加渐进和语境化的过滤方式。

　　5.理解社会影响和伦理限制

　　任何高级AI系统的发展都可能产生深远影响，研究者需要意识到自身的社会责任，考虑如何最大限度地发挥技术优势，同时减少潜在风险。

责编：Luffy

别装了，文心一言就是chatgpt的套板
我信你个鬼
建议：说是第一。

人工智能软件数据中心/服务器机器人大数据业界新闻

您可能感兴趣

苹果M5芯片进入量产阶段，采用台积电3nm工艺

凭借先进的3nm制程工艺和SoIC-MH封装技术，M5芯片在性能、能效和AI能力上均实现了显著提升。首批搭载M5芯片的设备陆续上市......

开放标准突破AI加速器互连瓶颈

随着AI模型规模越来越大，所需的训练硬件也需同步升级。然而，目前缺乏一种开放的互连标准来支持AI加速器间的高效通信。

EDA三巨头竞逐台积电AI设计流程

AI正稳步改变半导体行业，这一趋势在领先EDA公司和硅片代工厂表现得尤为突出。三大EDA工具制造商(Cadence、Synopsys和西门子EDA)已宣布与台积电合作，致力于为先进芯片制造节点开发AI驱动的设计流程。本文将简要回顾这些合作的现状。

实测GeForce RTX 5080：AI生成的像素，到底算不算性能提升？

最近发布的GeForce RTX 5080显卡晶体管数量、die size相比前代RTX 4080都没什么大变化，这真的能有性能提升吗？

传台积电将在台湾再建两座CoWoS先进封装厂

台积电计划在 3 月前投资超过 2000 亿新台币（约合 61.2 亿美元），扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露，台积电之所以做出这一决定，是因为人工智能（AI）驱动的先进封装需求比预期更为强劲......

CoWoS遭英伟达砍单？台积电回应

尽管市场上有传言称英伟达大幅削减了对台积电CoWoS-S封装的需求，甚至有报告指出砍单幅度高达80%，但台积电和英伟达均对此进行了否认......

摩根士丹利详解全球人形机器人100强， 37家中国企业上榜

全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节，覆盖全球共计100家上市公司。中国共37家企业上榜（中国大陆32家，台湾5家），其中深圳7家，占中国大陆上榜企业近四分之一，包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......

DeepSeek的低成本AI模型将催生光通信需求，光收发模块2025年出货量年增56.5%

DeepSeek模型虽降低AI训练成本，但AI模型的低成本化可望扩大应用场景，进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件，将受惠于高速数据传输的需求。未来AI服务器之间的数据传输，都需要大量的高速光收发模块......

全球首款骁龙®8至尊版折叠旗舰，OPPO Find N5搭载冰川电池续航领先

凭借新一代3nm制程工艺与全新架构，骁龙® 8至尊版的单核和GPU 性能提升均超过 40%，使得Find N5在性能上实现质的飞跃……

康佳特重磅推出aReady.IoT

简化物联网连接：应用就绪型软件构建模块

IDC：2024中国平板电脑市场出货量同比增长4.3%，华为居首位

2月10日，市场调查机构 IDC 发文称，2024 年全年中国平板电脑市场出货量为 2985 万台，同比增长 4.3%，市场迎来回暖。报道称， 2024 年第 4 季度市场出货量为 786 万台，受库

OLED面板大厂出3天/6天假期福利

据业内人士2月11日透露，三星显示器近期限时推出名为“平衡假期”的特别假期。具体内容是，每周平均工作超过52小时的员工可获得三天带薪休假，每周工作超过60小时的员工可获得六天带薪休假。上个月，三星显示

恩智浦3.07亿美元收购NPU厂商Kinara

当地时间2025年2月10日，恩智浦半导体公司 (NXP) 宣布，已与高性能、节能和可编程离散神经处理单元 (NPU) 领域的行业领导者 Kinara 达成最终收购协议。此次收购将以全现金方式进行，

三星初期独供iPhone折叠屏，预计明年5月量产

据IT业界9日报道，苹果公司最近进入了“可折叠iPhone”零部件供应商选择的最后阶段，据观察，三星显示器已决定独家供应初期面板量。据悉，三星将供应约1500万至2000万片，并将于明年5月开始量产，

通用汽车将停止生产汽油动力的雪佛兰Blazer

点击蓝字关注我们SUBSCRIBE to USImage: GM消息人士向“GM Authority”透露，雪佛兰Blazer的内燃机版本据说即将停产，最终将仅以电动汽车（EV）的形式投放（http

又一OLED驱动芯片厂商拟上市，阿里投资！

近日，中国证监会官网显示，格兰菲智能科技股份有限公司(简称“格兰菲”)已在上海证监局办理辅导备案登记，正式启动A股上市进程，辅导机构为海通证券。据披露，格兰菲成立于2020年12月，注册资本为1.28

40家知名日本半导体材料企业汇总！

我是芯片超人花姐，入行20年，有40W+芯片行业粉丝。有很多不方便公开发公众号的，关于芯片买卖、关于资源链接等，我会分享在朋友圈。扫码加我本人微信👇1. 信越化学（Shin-Etsu Chemica

马斯克拟出价1000亿美元收购！

周一，埃隆·马斯克与一群投资者提出以974亿美元收购ChatGPT开发商OpenAI，这一金额远低于这家人工智能公司最近1570亿美元的估值。OpenAI首席执行官萨姆·奥特曼在X平台上发文，立即拒绝

比亚迪全系车型搭载高阶智驾丨传智驾明星企业纵目科技创始人失联，爆料称其已经远遁美国，工区断电封楼、全员欠薪

比亚迪放大招，智驾卷到10万元内！王传福：比亚迪全系车型搭载高阶智驾2月10日晚，比亚迪智驾发布会放出“王炸”，这家全球新能源汽车销量冠军宣布，将推出低、中、高三套不同配置高阶智能驾驶解决方案，首批搭

合洁科技提醒：PCB净化车间装修建设需关注的设计问题

电子无尘车间在设计时需要重视多个问题，以确保生产环境的洁净度、生产效率和安全性。以下是需要重视的设计问题，具体随合洁科技电子洁净工程公司一起来了解下吧! &emsp

文章评论

最新
热门

换一换

EE直播

更多>

清华大学发布大语言模型综合性能评估报告，第二名来自中国

大语言模型：从数据到涌现

大模型进步关键：评估驱动创新

七大模型，GPT-4当之无愧老大，但文心一言更懂中文

关于大语言模型的未来发展，报告给出了如下几点建议：

杂志声明