国产AI大模型被斯坦福抄袭:已删库跑路

电子工程世界 2024-06-04 07:04

过去一阵子,都说国内的AI大模型是套皮,要么就是说国内抄国外。然而,回旋镖来的比想象中还快,国外已经开始抄国内了。 

最近两天,斯坦福AI团队竟然曝出了抄袭事件,被实锤“套壳”清华系开源大模型,模型结构和代码几乎一模一样,被揭穿后全网删库跑路,堪称一次AI圈的地震。

这件事也引发了EEWorld坛友的关注,原帖地址:https://www.eeworld.com.cn/a4KSGOG

 “套壳”清华系开源大模型被实锤 

5 月 29 日,一个来自斯坦福的作者团队在 Medium 上发布了一篇名为《Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars》的文章,文章中称他们训练出了一个比 GPT-4V、Gemini Ultra、Claude Opus 更强的 SOTA 开源多模态模型,尺寸比 GPT4-V 小 100 倍,训练成本仅需 500 美元。

该团队成员 Aksh Garg 也在 X(原 Twitter)上发贴介绍了这一模型的特点。没过多久该帖的浏览量已超过 30 万,被转发了 300 多次,Llama 3-V 的项目一下子冲到了 HuggingFace 首页。

随着该项目热度的持续走高,不少 X 和 HuggingFace 上的网友注意到,Llama 3-V 总是让人有种似曾相识的感觉,好像在哪里见到过!

网友们接着深扒后发现, Llama 3-V 似乎,有点,好像是套壳了清华系开源大模型 MiniCPM-Llama3-V 2.5。

据悉,MiniCPM-Llama3-V 2.5 是由清华系 AI 公司面壁智能推出并开源的 MiniCPM 系列最新的端侧多模态模型,总参数量为 8B,支持 30+ 种语言,多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型,OCR 能力及指令跟随能力得到进一步提升,可精准识别难图、长图、长文本。

面对网友们的质疑,斯坦福这支 AI 团队也坐不住了,他们表示只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer,并且宣称在 MiniCPM-Llama3-V 2.5 发布前就开始了这项工作。

但他们的解释再次遭到了质疑。

通常情况下,一款模型及其详细的 tokenizer 往往是在其发布后才能被外人知晓,那么斯坦福这支 AI 团队如何能在 MiniCPM-Llama3-V 2.5 发布之前就获取到这些信息?

这件事持续在网上发酵。

6 月 2 日,不死心的网友在 Llama3-V 的 GitHub Issue 上发布质疑,或许是因为心虚,该条质疑的评论很快就被 Llama3-V 团队删除。

幸运的是,发布质疑的网友早已机智地提前截图保存了自己在 GitHub Issue 上发布的内容。

这名网友列举了在他看来 Llama3-V“套壳” MiniCPM-Llama3-V 2.5 的四点证据:

证据一:模型结构和代码几乎是双胞胎兄弟。

比如,套壳的 Llama3-V 与 MiniCPM-Llama3-V 2.5 几乎“共用”了完全相同的模型结构和代码。Llama3-V 的模型结构和配置文件与 MiniCPM-Llama3-V 2.5 完全相同,只是变量名不同。

左图:MiniCPM-Llama3-V 2.5  右图:Llama3-V

证据二:Llama3-V 的代码似乎就是 MiniCPM-Llama3-V 2.5 的代码。更令人震惊的是,Llama3-V 仅仅只是进行了一些重新格式化并把一些变量重新做了命名,比如图像切片、分词器、重采样器、数据加载等变量,下图是一些示例。

证据三:Llama3-V 的作者表示他们“引用了 LLaVA-UHD 作为架构”,还列出了差异点(关于 ViT 和 LLM 的选择)。但是他们并没有提到,这个项目的具体实现与 MiniCPM-Llama3-V 2.5 极其相似,却在空间模式等许多方面与 LLaVA-UHD 有非常多的差异。Llama3-V 也具有与 MiniCPM-Llama3V 2.5 相同的分词器,包括 MiniCPM-Llama3-V 2.5 新定义的特殊符号。


证据四:最初 Llama3-V 的作者在上传代码时直接导入了 MiniCPM-V 的代码,然后将名称更改为 Llama3-V。

https://huggingface.co/mustafaaljadery/llama3v/commit/3bee89259ecac051d5c3e58ab619e3fafef20ea6


 斯坦福 AI 团队连夜删库跑路 

在屡遭质疑后,斯坦福 AI 团队已经被逼到了不回应实在说不过去的地步了,有网友开脸贴大该项目的作者,“你们有没有勇气面对事实”?

这种情况下,该团队成员不得不对网友关注的问题进行了回复。该项目中的一位作者表示:

“你们说我们抄袭简直是没影儿的事儿。Llama3-V 推理存在 bug,而 MiniCPM 的配置可以有效解决该问题,这就是为什么我们使用了相同的配置。此外,我已经指出了架构是相似的,但 MiniCPM 的架构来自 Idéfics。SigLIP 也来自 Idéfics。我们遵循 Idéfics 论文中的那些内容。LLava UHD 来自他们的实验室,我也已经指出了这一点。此外,我还强调了更多内容,即它是相同的架构,但该架构是基于综合研究的,你怎么能说它是 MiniCPM 呢?MiniCPM 的代码,看起来,视觉部分的也是从 Idéfics 那里使用的。”

不少网友还注意到,Llama3-V 在 MiniCPM-Llama3-V 2.5 项目发布之前就已经使用了 MiniCPM-Llama3-V 2.5 的 tokenizer 。有一些用户在 Twitter 和 HuggingFace 上指出以上问题后,Llama3-V 的作者表示他们只是使用了 MiniCPM-Llama3-V 2.5 的分词器(tokenizer)。他们还声称在 MiniCPM-Llama3-V 2.5 发布之前就开始了 Llama3-V 的工作。但令人无法解释的是,他们如何能在 MiniCPM-Llama3-V 2.5 发布之前就获取到其详细的分词器?

对此,Llama3-V 项目作者反驳说从已经发布的上一代 MinicPM-V-2 项目里拿的标记器。但实际上,有网友留意到,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在 Huggingface 里是两个文件。既不是同一个 tokenizer 件,文件大小也完全不同。MinicPM-Llama3-v2.5 的 tokenizer 是 Llama3 的 tokenizer 加上 MiniCPM-V 系列模型的一些特殊 token 组成,MiniCPM-v2 因为在 Llama 3 开源之前就发布的,不会有 Llama 3 的分词器。

Llama3-V 团队屡遭质疑却始终咬死不认的态度,惹怒了面壁智能 MiniCPM-Llama3-V 2.5 团队的研究人员们。

6 月 3 日,据AI前线引述面壁智能的回应。面壁智能认为,Llama3-V 项目的作者似乎并不完全理解 MiniCPM-Llama3-V 2.5 的架构,甚至也不理解他们自己的代码。

如下图 Llama3-V 的技术博客和代码显示, Llama3-V 的作者似乎没有完全理解 MiniCPM-Llama3-V 2.5 的架构,甚至也不懂他们"自己"(假若真是他们所写)的代码。

感知器重采样器(Perceiver resampler)是单层 cross-attention,而不是双层 self-attention。但是下图所示 Llama3-V 的技术博客里作者的理解很明显是错的。另外 SigLIP 的 Sigmoid 激活也不用于训练多模态大语言模型,而仅用于预训练 SigLIP。

截图来源:Llama3-V 的技术博客

截图来源:Llama3-V 的代码

面壁智能团队还表示:“另外视觉特征提取不需要 Sigmoid 激活,但下图所示 Llama3-V 的技术博客里作者的理解是错的,但代码其实是正确的,这说明作者压根不理解自己的代码”。

此外,Llama3-V 相当于 MiniCPM-Llama3-V 2.5 的加噪声版本。

据网友反馈,当运行 Llama3-V 时,作者提供的代码无法与 HuggingFace 上的 checkpoint 配合使用。

然而令人啼笑皆非的是,当把 Llama3-V 模型权重中的变量名更改为 MiniCPM-Llama3-V 2.5 的名称后,模型可以成功运行 MiniCPM-V 的代码。这一下子帮忙解决了困扰 Llama3-V 作者一周的问题。

如果在 MiniCPM-Llama3-V 2.5 的 checkpoint 上添加一个简单的高斯噪声(由一个标量参数化),你会预期得到什么结果?

new_dict = {}
for k, v in model.state_dict().items():
torch.cuda.manual_seed_all(42)
new_dict[k] = v + torch.randn_like(v) / 708
model.load_state_dict(new_dict)

结果是会得到一个行为与 Llama3-V 极为相似的模型。

然而,这些还不够。更更更炸裂的是,Llama3-V 团队连清华团队内部并未对外公开的私有数据都能拿到???

据面壁智能内部团队透露,Llama3-V 大模型居然能识别清华简,OCR 表现对比也很惊人,这些清华大学内部的私有数据他们又是如何拿到的呢?

MiniCPM-Llama3-V 2.5 的一个实验性功能是能够识别清华简,这是一种非常特殊且罕见的中国战国时期(公元前 475 年至公元前 221 年)写在竹简上的古文字。这些训练数据的采集和标注均有由清华 NLP 实验室和面壁智能团队完成,相关数据尚未对外公开。经过专有数据训练后,MiniCPM-Llama3-V 2.5 能够初步识别清华简的文字,甚至连犯的错误都一样。

然而令人惊讶的是,不可能获得专有数据训练的 Llama3-V 竟然也具有相同的能力!

下图展示了 Llama3-V 在识别清华简的文字时,其结果和 MiniCPM-Llama3-V 2.5 一致。

有趣的是,Llama3-V 在清华简识别犯错时竟然也和 MiniCPM-Llama3-V 2.5 一模一样。

为谨慎起见,作者在 1000 张竹简图像上测试了几种基于 Llama3 的视觉 - 语言模型,并比较了每对模型的预测精确匹配。

结果显示,正常情况下每两个模型之间的重叠为零,而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之间的重叠竟然达到了惊人的 87%!此外,MiniCPM-Llama3-V 2.5 和 Llama3-V 甚至在错误分布上也非常相似。Llama3-V 和 MiniCPM-Llama3-V 2.5 分别有 236 和 194 个错误预测,而其中重叠部分高达 182 个。

另外,这个高斯噪声对竹简字符也是有效的。

与 MiniCPM-Llama3-V 2.5 类似,Llama3-V 也显示出了很强的 OCR 能力,甚至包括中文。

Prompt:请输出图片中的文字

MiniCPM-Llama3-V 2.5

### 标题
9 倍像素更清晰

### 副标题
难图长图长文本精准识别

### 正文
OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V2.5 对于难图、长图、长文本的精准识别,再度带来出众表现!面壁自研高清图像高效编码技术,我们可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比、甚至「有点变态」的 1:9 极限比例图像,突破了传统技术仅能识别 20 万像素小图的瓶颈。此前,MiniCPM-V 系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。

### 图片描述
1. **180 万像素 **
- 任意长宽比
- 图像无损识别
- 可支持
- 1:9 极限宽高比

Llama3-V

### 标题
9 倍像素更清晰

### 副标题
难图长图文本精准识别

### 正文
OCR 技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V2.5 对于难图、长文本的精准识别,再度带来出众表现。面壁自研高清图像高效编码技术,我们可以高效编码及无损识别 180 万高清像素图片,并且支持任意长宽比、甚至「有点变态」的 1:9 极限比例图像,突破了传统技术仅能识别 20 万像素小图的瓶颈。此前,MiniCPM-V 系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。

### 图片描述
- **180 万像素 **:任意长宽比,图像无损识别,可支持。
- **1:9 极限宽高比 **:可支持。

同样的事情也发生在内部的 WebAgent 数据上,这是一个已经整合但尚未发布的功能。

Q:
Actions History
click, input, click
Your Task
Can you give me a recipe for French butter cake?
Generate next actions to do this task.

minicpmv:
actions:
click,32 273 477 508
click,32 273 477 508

llama3v:
actions:
click,32 273 477 508
click,32 273 477 508

Q:
Your Task
有没有关于《黑子的篮球》的新剧场版的消息?
Generate next actions to do this task.

minicpmv:
actions:
hover,732 292 792 328

llama3v:
actions:
hover,715 292 802 328

事情发酵至此,就在网友们都等着斯坦福 AI 团队再次发文力证清白时,AI 前线留意到,该团队成员似乎集体“闭麦”,并且已经删除了他们在 X 上官宣模型的推文,连带着该项目在 Github 和 HuggingFace 上的库也已经删干净了。

Github 开源:

https://github.com/mustafaaljadery/llama3v(已删库)

HuggingFace 开源:

https://huggingface.co/mustafaaljadery/llama3v(已删库)

Medium 发布文章:

https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

Twitter 官宣模型:

https://twitter.com/AkshGarg03/status/1795545445516931355(已删除)


而面壁智能团队成员也对此事进行了最新回应,他们表示看到这个消息还是挺让人伤心的。他们调查的结论是:

1、Llama3-V 可以使用更改参数名称后的 MiniCPM-Llama3-V 2.5 的代码和配置来运行

2、它的行为类似于 MiniCPM-Llama3-V 2.5 在内部数据上训练的未透露的实验特征,例如识别清华简(一种特殊类型的古代汉字)和 GUIAgent

3、它有点类似于噪声版的 MiniCPM-Llama3-V 2.5?

不过另一方面,对于抄袭这事也有不一样的声音——MiniCPM-Llama3-V 2.5不也是在Llama3的基础上做的改良吗?不过连tokenizer都直接拿来用就应该不算是借鉴了。


而就在昨天,另一个戏剧性的事情发生了。斯坦福的作者在中午时间做出了最新的回应,但现在……这条回应又删掉了。

 

 

而面壁智能这边,CEO李大海也做出了正式回应:

  


信息来源:

AI前线:https://mp.weixin.qq.com/s/EjFtgrjn6_9DXMGtY3YLEQ

量子位:https://mp.weixin.qq.com/s/gOhDKa_ovxz81dTa9TD1DQ


· END ·








电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 107浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 54浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 93浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 58浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 55浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 47浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 111浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 53浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 84浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 65浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 55浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 79浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 43浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦