倒反天罡？美国团队抄袭中国大模型，删库道歉-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

据称，斯坦福大学的AI研究团队被指控抄袭了中国清华系明星创业公司面壁智能开发的开源模型“小钢炮”MiniCPM-Llama3-V 2.5。这一事件在网上引起了广泛的热议和关注。

OpenAI 早期投资人 Vinod Khosla 去年曾在 X 发文称，“美国的开源模型都会被中国抄袭。”然而近日大模型“套壳”的回旋镖，打到了美国的身上——硅谷科技圈发生了一起引人注目的抄袭事件，简直啪啪打脸。

事件起因与争议点

5月29日，几位毕业于斯坦福大学的研究人员团队发布了一个名为Llama3-V的开源模型（EETC编按：严格意义上来说他们不能算斯坦福的团队，所以我们称其为“Llama3-V团队”），宣称仅需500美元就能训练出一个性能超越GPT-4V、Gemini Ultra、Claude Opus等的SOTA多模态大模型。

然而不久后，有网友发现Llama3-V的模型结构和代码与面壁智能不久前发布的MiniCPM-Llama3-V 2.5惊人相似，仅修改了部分变量名。

面壁智能的MiniCPM-Llama3-V 2.5项目具有独特的功能，如识别“清华简”——一种罕见的中国战国时期（公元前 475 年至公元前 221 年）古文字。而Llama3-V不仅也能识别出“清华简”，而且连错误的识别结果都与 MiniCPM 模型完全一致。

要知道，这些古文字数据是面壁智能团队花费数月时间从清华简上逐字扫描并人工标注的，且从未公开过。在未公开的实验性特征上与MiniCPM-Llama3-V 2.5表现出高度相似的行为，这些特征是Llama3-V团队模型抄袭的铁证。

包括X 用户 @yangzhizheng1 在内的网友提出的其他抄袭证据包括：

Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同，仅有一些变量名和格式化的差异。
Llama3-V使用了MiniCPM-Llama3-V 2.5的分词器（tokenizer），并且连同MiniCPM-Llama3-V 2.5定义的特殊符号也出现在了Llama3-V中。
将从HuggingFace下载的Llama3-V模型权重中的变量名改成MiniCPM-Llama3-V 2.5的，模型可以用MiniCPM-V代码成功运行。
如果往 MiniCPM-Llama3-V 2.5 的 checkpoint 添加高斯噪声（由单个标量参数化），出来的模型跟 Llama3-V 就像是一个模子刻出来的。

删库、道歉、甩锅

面对抄袭的质疑，llama3-V 项目的作者首先上演了一出“删库跑路”的好戏。GitHub和Hugging Face上的相关项目均显示404，无法访问；X上的官宣模型已删除。

Llama3-V团队最初辩称，他们的工作早于面壁智能的MiniCPM-Llama3-V 2.5，只是使用了他们的tokenizer。然而他们的解释再次遭到了质疑，因为一款模型及其详细的 tokenizer 往往是在其发布后才能被外人知晓，那么斯坦福这支 AI 团队如何能在 MiniCPM-Llama3-V 2.5 发布之前就获取到这些信息？

随后他们在Medium上的道歉声明被删除，且最新的回应也被撤回。

Llama3-V 团队最初发表的回应，目前已经撤回不可见

在舆论压力下，北京时间6月4日凌晨 1 点 27 分，Llama3-V 团队再次发文回应。两位作者森德哈斯·沙玛（Siddharth Sharma）和阿克沙·加格（Aksh Garg）在社交平台 X 上就这一学术不端行为，向面壁 MiniCPM 团队进行了正式道歉，并承诺将撤下所有 Llama3-V 模型。

有网友也扒出了抄袭作者的背景，虽然是妥妥的名校生，但也是抄袭惯犯，之前写的教材也是一整个大抄特抄。

公开信息显示，Siddharth Sharma 与 Aksh Garg 均是斯坦福大学计算机系的本科生，曾发表过机器学习领域的相关论文。

其中，Siddharth Sharma 曾在亚马逊实习过一段时间，目前主要从事于 AI 和数据相关工作。

而 Aksh Garg 的实习履历，那叫一个丰富，涵盖 SpaceX、斯坦福大学和加州理工学校等知名企业机构。

至于被这上述两位作者称为“代码搬运工”的穆斯塔法·阿尔贾德里（Mustafa Aljadery），是南加州大学出身，在舆论发酵之后，目前 X 账号已经被设为隐私状态。

Llama3-V作者：Siddharth Sharma（左）、Aksh Garg（中）、Mustafa Aljadery（右）

这样看来，Llama3-V团队并不能算严格意义上的斯坦福团队，不过因为此事声誉受损的斯坦福大学至今没有采取任何公开措施。

网友不买账，斯坦福谴责，面壁智能表立场

对于 Llama3-V 团队的道歉声明，网友却不买账。例如，X 用户 @xprunie 指出，这哥俩将责任归咎给一个人的甩锅行为，莫不是“有福同享，有难你当？如果是老穆一个人写了所有代码，那你俩是干啥的，就发发帖吗？”

斯坦福 AI 实验室主任 Christopher David Manning 也站出来谴责这一抄袭行为，并且对 MiniCPM 这一优异的中国开源模型表示赞扬。

针对此事，知乎CTO、面壁智能CEO李大海对此事件做出了正式回应：“已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。”

他表示，“技术创新不易，每一项工作都是团队夜以继日的奋斗结果，也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。我们希望团队的好工作被更多人关注与认可，但不是以这种方式。我们对这件事深表遗憾！一方面感概这也是一种受到国际团队认可的方式，另一方面也呼吁大家共建开放、合作、有信任的小区环境。一起加油合作，让世界因AGI的到来变得更好！”

面壁智能首席科学家刘知远也在知乎上发文表示，表示这次事件从另一个角度证明了中国创新成果的国际影响力，强调了开源共享的重要性，以及对原创精神的尊重。

开源社区，是时候重视中国大模型了

此事件在开源社区引起了广泛的讨论，有网友挑起了一个关键话题——开源社区是否忽视了来自中国的大模型成果？

前段时间，斯坦福大学人工智能研究院（Stanford HAI）发布了一份报告，表示美国在大模型领域遥遥领先。报告指出，2023 年 61 个著名的人工智能模型来自美国的机构，远远超过欧盟的 21 个和中国的 15 个。

数量多就是“遥遥领先”？非也。

谷歌DeepMind研究员、ViT作者Lucas Beyer在评论Llama3-V抄袭时提到，成本低于500美元，效果却能直追Gemini、GPT-4的开源模型确实存在，但相比于Llama3-V，MiniCPM得到的关注要少得多，“包括我自己也有所忽略。主要原因似乎是这样的模型出自中国实验室，而非常春藤盟校。”

Hugging Face平台和社区负责人Omar Sanseviero说的更加直接：“社区一直在忽视中国机器学习生态系统的工作。他们正在用有趣的大语言模型、视觉大模型、音频和扩散模型做一些令人惊奇的事情。包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。”

这次Llama3-V团队的模型抄袭事件说明，一直被认为在“追赶美国”的国产大模型，现在却成了被抄袭的对象。从更客观的大模型竞技场的角度看，此言不虚。

在模型一对一PK的视觉大模型竞技场中，来自零一万物的Yi-VL-Plus排名第五，超过了谷歌的Gemini Pro Vision。智谱AI和清华合作的CogVLM也跻身前十。DeepSeek、通义千问和这次遭到抄袭的MiniCPM系列多模态模型，也都有不错的表现。在更受到广泛认可的LMSYS Chatbot Arena Leaderboard竞技场榜单中，来自中国的大模型也同样在不断刷新“最强开源”的新纪录。

责编：Luffy

阅读全文，请先

人工智能软件知识产权/专利业界新闻

您可能感兴趣

CoWoS遭英伟达砍单？台积电回应

尽管市场上有传言称英伟达大幅削减了对台积电CoWoS-S封装的需求，甚至有报告指出砍单幅度高达80%，但台积电和英伟达均对此进行了否认......

NVIDIA的机器人市场野心：老黄手中“奇异博士的时间宝石”

很多人以为，今年CES上老黄演讲的主角是GeForce显卡，但其实是他手里握有的机器人相关的“时间宝石”...

OpenAI的经济蓝图：芯片、数据、能源和人才是关键

OpenAI认为，芯片、数据、能源和人才是赢得人工智能的关键，且建议美国政府大幅增加对这些领域的投资。

索尼新专利：利用AI技术解决游戏延迟问题

索尼新专利利用人工智能（AI）技术来预测玩家的操作输入，从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”，通过智能AI模型提前判断玩家的意图，并在实际操作完成之前执行相应的指令，从而提升游戏的流畅度和响应速度......

英伟达AI芯片再出故障，微软等客户削减订单，股价一度重挫近5%

目前，这些故障主要影响了首批搭载Blackwell芯片的机架，从而引发了客户的担忧。其中，微软、亚马逊网络服务公司（AWS）、谷歌和Meta这四大主要客户已经削减了对Blackwell GB200机架的订单。

随CPU换代，2025年的主流AI PC将会是这样的…

最近华硕在景德镇召开了一场新品发布会，而这次发布的AI PC大概能代表2025一整年的AI PC走向...

含硅还是不含硅？

大多数研发人员和导热界面材料配方设计师可能会推荐使用具备诸多优异特性的硅。然而，也存在一些例外情况。这些问题强调了在选择导热界面材料时考虑终端产品最终应用的重要性.....

CES 2025：芯科科技CTO Daniel Cooley专访

在与芯科科技（Silicon Labs）首席技术官Daniel Cooley的交谈中，我们了解到该公司在物联网（IoT）和智能边缘领域所发挥的作用和未来发展。

NFC防伪技术：削弱假货对奢侈品行业的影响

虽然绕过产品防伪保护的手段变得越来越高级，但是最新的 NFC 芯片技术提高了信息安全性，让品牌能够保护知识产权，预防客户误买假冒商品。

西门子更新Simcenter解决方案，增强汽车与航空航天仿真能力

西门子推出Simcenter更新版本，助力客户简化工作流程，加快航空航天认证，同时提供深入洞见

沃尔沃2025：踏过千重浪｜特辑

文｜温风回顾完过去，再聊聊新的一年，沃尔沃从产品层面，还有哪些亟待解决的问题？首先是纯电高端化的挑战。这不是沃尔沃一家的命题，宝马i5/i7，奔驰EQE/EQS，没有一款对自身旗下传统动力车型产生强烈

荣耀中国区CMO姜海荣、中国区销售部部长郑树宝将离职

会议推介2025中国国际LED产业发展大会暨首届JM Insights春茗会主办单位：JM Insights 支持单位：深圳市平板显示行业协会论坛时间：2025年2月20日论坛地址：深圳·国展皇

是德科技推出一体化的网络可视化和安全解决方案

该计划旨在降低成本，减少网络风险和运营的复杂性首批合作伙伴包括 Forescout、Instrumentix 和 Nozomi Networks是德科技（NYSE：KEYS）推出网络可视化合作伙伴计划

5G用户：不要尽力而为，要差异化连接

“什么是5G，用户说了算”。记得在5G商用之前，当人们都在谈论5G是什么、5G到底能做啥时，这句话引起了业界广泛共鸣——5G建设和发展需倾听用户的声音，以消费者和各行各业日益增长的需求为导向。时至今日

马斯克收购英特尔！

● 第六届半导体湿电化学品与电子气体论坛将于3月19日在杭州召开1月20日消息，据外媒报道，英特尔已成为“某家公司”的收购目标，而特斯拉CEO马斯克被认为是该传闻中英特尔的潜在收购者！据悉，这一收购传

曝特斯拉将支持安卓UWB数字车钥匙！

本文来源：智能通信定位圈《2025中国高精度定位技术产业白皮书》正在调研阶段，目前已经参与调研的企业有：长沙驰芯半导体科技有限公司北京瀚巍创芯电子技术有限公司深圳捷扬微电子有限公司深圳芯邦科技股份有限

几张动图让你快速了解三极管

三极管的电流放大作用应该算是模拟电路里面的一个难点内容，我想用这几个动画简单的解释下为什么小电流Ib能控制大电流Ic的大小，以及放大电路的原理。我这里的三极管也叫双极型晶体管,模电的放

2024全球PC出货量：联想、惠普、戴尔前三

1月20日，市场调查机构 CounterPoint Research发布的报告显示，2024 全年 PC 出货量达到 2.53 亿台，同比增长 2.6%，PC 市场已恢复到正常季节性波动，并随着 AI

研报|初步评估0121地震未造成台南晶圆厂重大损害，但恐加剧1Q25电视面板供给紧张

‌‌Jan. 21, 2025 产业洞察根据TrendForce集邦咨询调查1月21日嘉义地区芮氏规模6.4地震对邻近的晶圆代工厂、面板厂影响情况，TSMC（台积电）及UMC（联电）的台南厂因震度达4

中国台湾突发6.4级地震，台积电部分厂区停机人员疏散！

根据中国台湾气象署所发布的报告显示，中国台湾南部地区于1月21日上午零点17分27秒发生里氏地震规模6.4的地震，震中位于北纬23.23度，东经120.57度，即在嘉义县政府东南方37.9公里，位于嘉

文章评论

最新
热门

换一换

EE直播

更多>

倒反天罡？美国团队抄袭中国大模型，删库道歉

事件起因与争议点

删库、道歉、甩锅

网友不买账，斯坦福谴责，面壁智能表立场

开源社区，是时候重视中国大模型了

杂志声明