斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。

近日,斯坦福AI团队主导的 Llama3-V 开源模型被证实套壳抄袭国内清华&面壁智能的开源模型“小钢炮”MiniCPM-Llama3-V 2.5一事,在网络和媒体上引发热议。

被网友质疑抄袭,面壁智能团队进一步验证

事件起源于5月29日,一个斯坦福AI 团队在网络上高调宣传,只需500美元就可训练出一个超越GPT-4V 的 SOTA 多模态大模型。该模型发布的推特帖子浏览量很快就超过了30万,转发300+次,并迅速冲到了 Hugging Face 首页。

随后,推特与 Hugging Face 上就开始出现怀疑的声音,网友质疑 Llama3V 套壳了面壁智能在5月中旬发布的8B 多模态小模型 MiniCPM-Llama3-V 2.5,且没有在 Llama3V 的工作中表达任何“致敬”或“感谢”MiniCPM-Llama3-V 2.5 的声音。对此,Llama3V 团队回复称他们“只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer”,并宣称“在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作”。

之后,有网友在 Llama3V 的 Github 项目下抛出事实性质疑,但很快被 Llama3V 的团队删除。为此,提出质疑的网友跑到了 MiniCPM-V 的 Github 页面进行事件还原,提醒面壁智能团队关注此事。

随着事件逐渐发酵,面壁智能团队也就此事展开了调查。

面壁智能首席科学家、清华大学长聘副教授刘知远给出的判断Llama3-V是MiniCPM-Llama3-V 2.5套壳。

而实锤Llama3-V 开源模型抄袭MiniCPM-Llama3-V 2.5的最有力证据,正是对于清华简的识别能力。

据称,这是MiniCPM-Llama3-V 2.5的“彩蛋”能力,是他们用了从清华简逐字扫描并标注的数据集训练的,并未公开。而Llama3-V的表现和MiniCPM-Llama3-V 2.5一模一样,不仅做对的题一样,出错的地方都一样。

此外,有网友研究后发现,Llama3-V几乎每一层的权重差值都符合均值为0、标准差为1.4e-3的高斯分布。

于是推测,Llama3-V只是直接在MiniCPM的权重上添加了低方差噪声。

斯坦福Llama3-V团队道歉,作者“失联跑路

今早北京时间凌晨1点27分,斯坦福Llama3-V团队的两位作者Siddharth Sharma和 Aksh Garg在社交平台上就这一学术不端行为向面壁MiniCPM团队正式道歉,并表示会将Llama3-V模型悉数撤下。

Aksh Garg表示,“首先,我们要向MiniCPM原作者道歉。我、Siddharth Sharma,以及Mustafa一起发布了Llama3-V,Mustafa为这个项目编写了代码,但从昨天起就无法联系他。我与Siddharth Sharma主要负责帮助Mustafa进行模型推广。我们俩查看了最新的论文,以验证这项工作的新颖性,但并未被告知或意识到OpenBMB(清华团队支持发起的大规模预训练语言模型库与相关工具)之前的任何工作。我们向作者道歉,并对自己没有努力验证这项工作的原创性感到失望。我们对所发生的事情承担全部责任,并已撤下Llama3-V,再次致歉。”

而被指“失联”的Mustafa X主页目前已经开启保护锁定状态,申请才能关注。

另外,斯坦福人工智能实验室主任Christopher David Manning也发文谴责这一抄袭行为,并对MiniCPM这一中国开源模型表示赞扬。

nobody悄然成长为关键推动者

MiniCPM-Llama3-V 2.5是由面壁智能和清华大学自然语言处理实验室联合推出的, 它具有以下特点:

  • 8B 参数量:这个模型拥有8亿参数,这使得它在处理复杂任务时表现出色。
  • 多模态能力:MiniCPM-Llama3-V 2.5 能够接受图像和文本输入,并提供高质量的文本输出。
  • OCR 能力:模型增强了光学字符识别(OCR)能力,能够接受高达180万像素的任意宽高比图像输入,并在OCRBench上得分达到725,超越了其他商用闭源模型。
  • 多语言支持:支持30多种语言,包括英语、中文、法语、西班牙语、德语等,展现出良好的多语言多模态对话性能。
  • 高效部署:通过模型量化、CPU、NPU、编译优化等高效加速技术,实现了高效的终端设备部署。

它在多模态大模型评测基准的OpenCompass榜单上平均得分65.1,超过了GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max等主流商用闭源多模态大模型。

尽管中国在AI大模型的研发上起步稍晚,但其发展速度却异常迅猛。目前,国内涌现出了一批知名的AI大模型企业,它们分别是通义千问、Yi、OpenBMB 、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、Skywork、HunyunDiT等等,这些企业都在各自的领域取得了显著的成就。

在视觉大模型的竞赛中,零一万物的Yi-VL-Plus模型脱颖而出,以优异的成绩位列第五,甚至超越了谷歌的Gemini Pro Vision。同时,智谱AI与清华合作的CogVLM也成功跻身前十,充分展示了中国在视觉AI领域的强大实力。

而在更具权威性的LMSYS Chatbot Arena Leaderboard竞技场榜单中,中国的大模型也在不断刷新“最强开源”的纪录,这进一步证明了中国在AI大模型技术领域的领先地位。

值得一提的是,中国的大模型不仅在技术上取得了突破,更在实际应用中展现出了强大的通用性和跨领域能力。例如,上海人工智能实验室研发的书生浦语开源大模型,凭借其70亿参数的轻量级版本和200亿参数的中量级版本,在多个领域都表现出了卓越的性能,这为中国在AI大模型的应用落地方面树立了新的标杆。

此外,中国在算力方面也具备坚实的基础。尽管与美国相比,中国现有的算力总规模仍有一定差距,但在以GPU和NPU为主的智能算力规模上,中国已经明显超越美国。这一优势为中国大模型的训练提供了强有力的支持,使得中国在AI大模型领域的发展更加迅速。

刘知远也表示,从横向来看,我们显然仍与国际顶尖工作如Sora和GPT-4o有显著差距;同时,从纵向来看,我们已经从十几年前的nobody,快速成长为人工智能科技创新的关键推动者。

面壁智能知错能改,善莫大焉

面壁智能CEO李大海表示,“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”“我们希望团队的好工作被更多人关注与认可,但不是以这种方式。”

面壁智能首席科学家、清华大学长聘副教授刘知远表示,人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的MiniCPM-Llama3-V 2.5 就用了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。

北京面壁智能科技有限责任公司成立于2022年8月,今年4月,面壁智能完成新一轮数亿元融资,由华为哈勃领投,春华创投、北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。今年2月,面壁智能发布开源模型MiniCPM后,又推出MiniCPM 2系列端侧模型。李大海表示,推动大模型在端侧的落地是面壁目前的重点工作之一。

责编:Demi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力,以及在马斯克在当选总统特朗普政府中的“特殊地位”,多家分析机构认为,马斯克的财富未来还将进一步增长。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
据悉,此次交易是通过马斯克亲自与英伟达CEO黄仁勋进行沟通促成的。这批GB200 AI芯片将被用于强化其旗舰级超级计算集群——Colossus(巨人)。Colossus作为xAI的技术基石,将借此机会实现计算能力的飞跃。
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
人工智能(AI)功能已经在各种移动设备中变得至关重要。尤其是2024年,AI PC陆续推向市场,甚至可以称为“边缘设备AI元年”。 这次我们就来盘点一下2024年下半年发布的主要AI PC和处理器。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
LG Display  12月18日表示,为加强OLED制造竞争力,自主开发并引进了“AI(人工智能)生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益