据称,斯坦福大学的AI研究团队被指控抄袭了中国清华系明星创业公司面壁智能开发的开源模型“小钢炮”MiniCPM-Llama3-V 2.5。这一事件在网上引起了广泛的热议和关注。

OpenAI 早期投资人 Vinod Khosla 去年曾在 X 发文称,“美国的开源模型都会被中国抄袭。”然而近日大模型“套壳”的回旋镖,打到了美国的身上——硅谷科技圈发生了一起引人注目的抄袭事件,简直啪啪打脸。

据称,斯坦福大学的AI研究团队被指控抄袭了中国清华系明星创业公司面壁智能开发的开源模型“小钢炮”MiniCPM-Llama3-V 2.5。这一事件在网上引起了广泛的热议和关注。

事件起因与争议点

5月29日,几位毕业于斯坦福大学的研究人员团队发布了一个名为Llama3-V的开源模型EETC编按:严格意义上来说他们不能算斯坦福的团队,所以我们称其为“Llama3-V团队”),宣称仅需500美元就能训练出一个性能超越GPT-4V、Gemini Ultra、Claude Opus等的SOTA多模态大模型。

然而不久后,有网友发现Llama3-V的模型结构和代码与面壁智能不久前发布的MiniCPM-Llama3-V 2.5惊人相似,仅修改了部分变量名。

面壁智能的MiniCPM-Llama3-V 2.5项目具有独特的功能,如识别“清华简”——一种罕见的中国战国时期(公元前 475 年至公元前 221 年)古文字。而Llama3-V不仅也能识别出“清华简”,而且连错误的识别结果都与 MiniCPM 模型完全一致。

要知道,这些古文字数据是面壁智能团队花费数月时间从清华简上逐字扫描并人工标注的,且从未公开过。在未公开的实验性特征上与MiniCPM-Llama3-V 2.5表现出高度相似的行为,这些特征是Llama3-V团队模型抄袭的铁证。

包括X 用户 @yangzhizheng1 在内的网友提出的其他抄袭证据包括:

  • Llama3-V的模型架构和代码与MiniCPM-Llama3-V 2.5几乎完全相同,仅有一些变量名和格式化的差异。
  • Llama3-V使用了MiniCPM-Llama3-V 2.5的分词器(tokenizer),并且连同MiniCPM-Llama3-V 2.5定义的特殊符号也出现在了Llama3-V中。
  • 将从HuggingFace下载的Llama3-V模型权重中的变量名改成MiniCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代码成功运行。
  • 如果往 MiniCPM-Llama3-V 2.5 的 checkpoint 添加高斯噪声(由单个标量参数化),出来的模型跟 Llama3-V 就像是一个模子刻出来的。

、道歉、甩锅

面对抄袭的质疑,llama3-V 项目的作者首先上演了一出“删库跑路”的好戏。GitHub和Hugging Face上的相关项目均显示404,无法访问;X上的官宣模型已删除。

Llama3-V团队最初辩称,他们的工作早于面壁智能的MiniCPM-Llama3-V 2.5,只是使用了他们的tokenizer。然而他们的解释再次遭到了质疑,因为一款模型及其详细的 tokenizer 往往是在其发布后才能被外人知晓,那么斯坦福这支 AI 团队如何能在 MiniCPM-Llama3-V 2.5 发布之前就获取到这些信息?

随后他们在Medium上的道歉声明被删除,且最新的回应也被撤回。

Llama3-V 团队最初发表的回应,目前已经撤回不可见

在舆论压力下,北京时间6月4日凌晨 1 点 27 分,Llama3-V 团队再次发文回应。两位作者森德哈斯·沙玛(Siddharth Sharma) 和阿克沙·加格(Aksh Garg) 在社交平台 X 上就这一学术不端行为,向面壁 MiniCPM 团队进行了正式道歉,并承诺将撤下所有 Llama3-V 模型。

有网友也扒出了抄袭作者的背景,虽然是妥妥的名校生,但也是抄袭惯犯,之前写的教材也是一整个大抄特抄。

公开信息显示,Siddharth Sharma 与 Aksh Garg 均是斯坦福大学计算机系的本科生,曾发表过机器学习领域的相关论文。

其中,Siddharth Sharma 曾在亚马逊实习过一段时间,目前主要从事于 AI 和数据相关工作。

而 Aksh Garg 的实习履历,那叫一个丰富,涵盖 SpaceX、斯坦福大学和加州理工学校等知名企业机构。

至于被这上述两位作者称为“代码搬运工”的穆斯塔法·阿尔贾德里(Mustafa Aljadery),是南加州大学出身,在舆论发酵之后,目前 X 账号已经被设为隐私状态。

Llama3-V作者:Siddharth Sharma(左)、Aksh Garg(中)、Mustafa Aljadery(右)

这样看来,Llama3-V团队并不能算严格意义上的斯坦福团队,不过因为此事声誉受损的斯坦福大学至今没有采取任何公开措施。

网友不买账,斯坦福谴责,面壁智能表立场

对于 Llama3-V 团队的道歉声明,网友却不买账。例如,X 用户 @xprunie 指出,这哥俩将责任归咎给一个人的甩锅行为,莫不是“有福同享,有难你当?如果是老穆一个人写了所有代码,那你俩是干啥的,就发发帖吗?”

斯坦福 AI 实验室主任 Christopher David Manning 也站出来谴责这一抄袭行为,并且对 MiniCPM 这一优异的中国开源模型表示赞扬。

针对此事,知乎CTO、面壁智能CEO李大海对此事件做出了正式回应:“已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。”

他表示,“技术创新不易,每一项工作都是团队夜以继日的奋斗结果,也是以有限算力对全世界技术进步与创新发展作出的真诚奉献。我们希望团队的好工作被更多人关注与认可,但不是以这种方式。我们对这件事深表遗憾!一方面感概这也是一种受到国际团队认可的方式,另一方面也呼吁大家共建开放、合作、有信任的小区环境。一起加油合作,让世界因AGI的到来变得更好!”

面壁智能首席科学家刘知远也在知乎上发文表示,表示这次事件从另一个角度证明了中国创新成果的国际影响力,强调了开源共享的重要性,以及对原创精神的尊重。

开源社区,是时候重视中国大模型了

此事件在开源社区引起了广泛的讨论,有网友挑起了一个关键话题——开源社区是否忽视了来自中国的大模型成果?

前段时间,斯坦福大学人工智能研究院(Stanford HAI)发布了一份报告,表示美国在大模型领域遥遥领先。报告指出,2023 年 61 个著名的人工智能模型来自美国的机构,远远超过欧盟的 21 个和中国的 15 个。

数量多就是“遥遥领先”?非也。

谷歌DeepMind研究员、ViT作者Lucas Beyer在评论Llama3-V抄袭时提到,成本低于500美元,效果却能直追Gemini、GPT-4的开源模型确实存在,但相比于Llama3-V,MiniCPM得到的关注要少得多,“包括我自己也有所忽略。主要原因似乎是这样的模型出自中国实验室,而非常春藤盟校。”

Hugging Face平台和社区负责人Omar Sanseviero说的更加直接:“社区一直在忽视中国机器学习生态系统的工作。他们正在用有趣的大语言模型、视觉大模型、音频和扩散模型做一些令人惊奇的事情。包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。”

这次Llama3-V团队的模型抄袭事件说明,一直被认为在“追赶美国”的国产大模型,现在却成了被抄袭的对象。从更客观的大模型竞技场的角度看,此言不虚。

在模型一对一PK的视觉大模型竞技场中,来自零一万物的Yi-VL-Plus排名第五,超过了谷歌的Gemini Pro Vision。智谱AI和清华合作的CogVLM也跻身前十。DeepSeek、通义千问和这次遭到抄袭的MiniCPM系列多模态模型,也都有不错的表现。在更受到广泛认可的LMSYS Chatbot Arena Leaderboard竞技场榜单中,来自中国的大模型也同样在不断刷新“最强开源”的新纪录。

责编:Luffy
阅读全文,请先
您可能感兴趣
有分析认为,台积电断供7纳米及更先进工艺的芯片,一方面是回应此前的“白手套”事件,配合美国对中国大陆人工智能产业发展进行限制,以避免进一步的法律和政治风险,另一方面则是向新一任总统特朗普“投诚”,毕竟时间点很微妙。
这款芯片不仅适用于AI汽车,还可以应用于AI机器人和未来可能的飞行汽车领域,体现了小鹏在智能化领域的雄心壮志。据悉,图灵AI芯片的算力非常强大,一颗芯片的算力相当于三颗主流智驾芯片。这使得它能够同时驱动自动驾驶系统、智能座舱大模型等多种应用。
由于较早预判了transformer网络架构的发展,爱芯通元AI处理器原生支持transformer,这也保证了其能效比领先于更高端的AI芯片,更加契合边缘大模型的落地应用。基于爱芯智眸AI-ISP和爱芯通元NPU两大核心技术,爱芯元智在智慧城市、智能驾驶和边缘智能等领域不断落地。
作为IIC Shenzhen 2024主论坛之一,2024全球CEO峰会以“边缘·芯未来”为主题,邀请全球领先的半导体技术厂商探讨和分享边缘AI技术在硬件和软件上的创新和布局,以及边缘AI的发展为半导体产业带来的巨大的市场机遇和技术挑战。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
三星电子的晶圆代工业务亏损重要原因之一是错失HBM风口和尖端制程良率问题。作为全球最大的存储芯片制造商,三星电子巅峰时期曾独占全球45%以上的内存市场。然而,近两年来,三星电子在先进制程芯片及AI芯片领域的进展缓慢。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
台积电7nm停供中国大陆!集微网报道称,从多个消息源获悉,台积电已经向目前所有中国大陆AI芯片客户发送正式电子邮件,宣布自下周(11月11日)起,将暂停向中国大陆AI/GPU客户供应所有7纳米(nm)
近几年,越来越多的中国电子零部件企业将目光投向海外市场,寻求“出海”机会。有一家坐落于深圳龙岗坂田的企业,在高端豪华车、工业控制上的产品成功获得了行业标杆客户的订单,出口额更是突破百万美元,成为“出海
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓世界先进11月11日公告,位于桃园的晶圆三厂于下午12:10分因供电系统设备异常,致使厂区电力中断,
今天,万众瞩目的德国慕尼黑电子展开始了。这次慕展很有可能会是史上规模最大的一次慕展!三星、博通、TI、ST、ADI、Infineon、NXP、ON、高通、Skyworks、TDK等众多芯片大厂,艾睿、
11月12日,百度创始人李彦宏在百度世界2024大会上表示,智能体是AI应用最主流的形态,即将迎来爆发点,这里是李彦宏演讲完整视频。●付费专栏文章小白自媒体赚钱,年入十万不是梦:专栏介绍 丨小白自媒体
ABOUT US研鼎公司总部位于上海浦东张江高科技园区,在深圳、北京和韩国设立研发和运营。是影像测试设备与解决方案领军企业,致力于视觉测试设备和分析软件产品的研发,可为客户提供优质的影像实验室Turn
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据报道,面对AMD和NVIDIA的激烈竞争,英特尔计划在2025年通过扩大与台积电
艾迈斯欧司朗今日宣布,推出新一代高性能LED——OSCONIQ® C 3030。这款尖端LED系列专为严苛的户外及体育场照明环境而设计,兼具出色的发光强度与卓越的散热效能。其支持高达
11月11日,据路透社消息,华为技术有限公司要求美国法官驳回一项针对其的联邦起诉书的大部分内容。该起诉书指控华为试图窃取美国竞争对手的技术机密,并就其相关业务误导银行。           报道称,华
EETOP讯,据中国台湾《经济日报》报道,美国出口管制措施进一步升级,不仅传闻台积电将因遵循规定而停止向中国大陆的非消费类AI芯片客户提供7纳米制程产品,三星也同样受到限制,无法承接相关订单。(参考阅