斯坦福AI项目抄袭中国清华&面壁开源模型，团队道歉作者“失联跑路”-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事，在网络和媒体上引发热议。

近日，斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事，在网络和媒体上引发热议。

被网友质疑抄袭，面壁智能团队进一步验证

事件起源于5月29日，一个斯坦福AI 团队在网络上高调宣传，只需500美元就可训练出一个超越GPT-4V 的 SOTA 多模态大模型。该模型发布的推特帖子浏览量很快就超过了30万，转发300+次，并迅速冲到了 Hugging Face 首页。

随后，推特与 Hugging Face 上就开始出现怀疑的声音，网友质疑 Llama3V 套壳了面壁智能在5月中旬发布的8B 多模态小模型 MiniCPM-Llama3-V 2.5，且没有在 Llama3V 的工作中表达任何“致敬”或“感谢”MiniCPM-Llama3-V 2.5 的声音。对此，Llama3V 团队回复称他们“只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer”，并宣称“在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作”。

之后，有网友在 Llama3V 的 Github 项目下抛出事实性质疑，但很快被 Llama3V 的团队删除。为此，提出质疑的网友跑到了 MiniCPM-V 的 Github 页面进行事件还原，提醒面壁智能团队关注此事。

随着事件逐渐发酵，面壁智能团队也就此事展开了调查。

面壁智能首席科学家、清华大学长聘副教授刘知远给出的判断Llama3-V是MiniCPM-Llama3-V 2.5套壳。

而实锤Llama3-V 开源模型抄袭MiniCPM-Llama3-V 2.5的最有力证据，正是对于清华简的识别能力。

据称，这是MiniCPM-Llama3-V 2.5的“彩蛋”能力，是他们用了从清华简逐字扫描并标注的数据集训练的，并未公开。而Llama3-V的表现和MiniCPM-Llama3-V 2.5一模一样，不仅做对的题一样，出错的地方都一样。

此外，有网友研究后发现，Llama3-V几乎每一层的权重差值都符合均值为0、标准差为1.4e-3的高斯分布。

于是推测，Llama3-V只是直接在MiniCPM的权重上添加了低方差噪声。

斯坦福Llama3-V团队道歉，作者“失联跑路”

今早北京时间凌晨1点27分，斯坦福Llama3-V团队的两位作者Siddharth Sharma和 Aksh Garg在社交平台上就这一学术不端行为向面壁MiniCPM团队正式道歉，并表示会将Llama3-V模型悉数撤下。

Aksh Garg表示，“首先，我们要向MiniCPM原作者道歉。我、Siddharth Sharma，以及Mustafa一起发布了Llama3-V，Mustafa为这个项目编写了代码，但从昨天起就无法联系他。我与Siddharth Sharma主要负责帮助Mustafa进行模型推广。我们俩查看了最新的论文，以验证这项工作的新颖性，但并未被告知或意识到OpenBMB（清华团队支持发起的大规模预训练语言模型库与相关工具）之前的任何工作。我们向作者道歉，并对自己没有努力验证这项工作的原创性感到失望。我们对所发生的事情承担全部责任，并已撤下Llama3-V，再次致歉。”

而被指“失联”的Mustafa X主页目前已经开启保护锁定状态，申请才能关注。

另外，斯坦福人工智能实验室主任Christopher David Manning也发文谴责这一抄袭行为，并对MiniCPM这一中国开源模型表示赞扬。

从nobody悄然成长为关键推动者

MiniCPM-Llama3-V 2.5是由面壁智能和清华大学自然语言处理实验室联合推出的，它具有以下特点：

8B 参数量：这个模型拥有8亿参数，这使得它在处理复杂任务时表现出色。
多模态能力：MiniCPM-Llama3-V 2.5 能够接受图像和文本输入，并提供高质量的文本输出。
OCR 能力：模型增强了光学字符识别（OCR）能力，能够接受高达180万像素的任意宽高比图像输入，并在OCRBench上得分达到725，超越了其他商用闭源模型。
多语言支持：支持30多种语言，包括英语、中文、法语、西班牙语、德语等，展现出良好的多语言多模态对话性能。
高效部署：通过模型量化、CPU、NPU、编译优化等高效加速技术，实现了高效的终端设备部署。

它在多模态大模型评测基准的OpenCompass榜单上平均得分65.1，超过了GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等主流商用闭源多模态大模型。

尽管中国在AI大模型的研发上起步稍晚，但其发展速度却异常迅猛。目前，国内涌现出了一批知名的AI大模型企业，它们分别是通义千问、Yi、OpenBMB 、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、Skywork、HunyunDiT等等，这些企业都在各自的领域取得了显著的成就。

在视觉大模型的竞赛中，零一万物的Yi-VL-Plus模型脱颖而出，以优异的成绩位列第五，甚至超越了谷歌的Gemini Pro Vision。同时，智谱AI与清华合作的CogVLM也成功跻身前十，充分展示了中国在视觉AI领域的强大实力。

而在更具权威性的LMSYS Chatbot Arena Leaderboard竞技场榜单中，中国的大模型也在不断刷新“最强开源”的纪录，这进一步证明了中国在AI大模型技术领域的领先地位。

值得一提的是，中国的大模型不仅在技术上取得了突破，更在实际应用中展现出了强大的通用性和跨领域能力。例如，上海人工智能实验室研发的书生浦语开源大模型，凭借其70亿参数的轻量级版本和200亿参数的中量级版本，在多个领域都表现出了卓越的性能，这为中国在AI大模型的应用落地方面树立了新的标杆。

此外，中国在算力方面也具备坚实的基础。尽管与美国相比，中国现有的算力总规模仍有一定差距，但在以GPU和NPU为主的智能算力规模上，中国已经明显超越美国。这一优势为中国大模型的训练提供了强有力的支持，使得中国在AI大模型领域的发展更加迅速。

刘知远也表示，从横向来看，我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距；同时，从纵向来看，我们已经从十几年前的nobody，快速成长为人工智能科技创新的关键推动者。

面壁智能：知错能改，善莫大焉

面壁智能CEO李大海表示，“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式，另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可，但不是以这种方式。”

面壁智能首席科学家、清华大学长聘副教授刘知远表示，人工智能的飞速发展离不开全球算法、数据与模型的开源共享，让人们始终可以站在SOTA的肩上持续前进。面壁开源的MiniCPM-Llama3-V 2.5 就用了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守，对其他贡献者的信任，对前人成果的尊重和致敬，Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库，该团队三人中的两位也只是斯坦福大学本科生，未来还有很长的路，如果知错能改，善莫大焉。

北京面壁智能科技有限责任公司成立于2022年8月，今年4月，面壁智能完成新一轮数亿元融资，由华为哈勃领投，春华创投、北京市人工智能产业投资基金等跟投，知乎作为战略股东持续跟投支持。今年2月，面壁智能发布开源模型MiniCPM后，又推出MiniCPM 2系列端侧模型。李大海表示，推动大模型在端侧的落地是面壁目前的重点工作之一。

责编：Demi

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

人工智能业界新闻

斯坦福AI项目抄袭中国清华&面壁开源模型，团队道歉作者“失联跑路”

被网友质疑抄袭，面壁智能团队进一步验证

斯坦福Llama3-V团队道歉，作者“失联跑路”

从nobody悄然成长为关键推动者

面壁智能：知错能改，善莫大焉

杂志声明