近日,曾因恶意攻击其实习公司字节跳动的模型训练集群,而被起诉索赔800万元人民币的前实习生田柯宇,获得了NeurIPS 2024的最佳论文奖。因其戏剧性和涉及道德及职业行为的问题,引起了广泛的关注和讨论。
田柯宇为何被字节跳动起诉?
两个月前,字节跳动的大模型训练集群遭到北京大学实习生的恶意攻击,导致公司蒙受了巨大的损失。
据称,田柯宇本科毕业于北航软件学院,研究生就读于北大,师从王立威教授,研究兴趣为深度学习的优化与算法。
自2021年起,开始在字节跳动实习研究,具体包括超参数优化、强化学习算法、自监督的新型算法。
因为对团队内部的一些情况不满,出于泄愤的心理采取了报复行动。
他巧妙地利用了Hugging Face平台上用于加载检查点(checkpoint)文件的函数中的一个漏洞,制作了一个表面无害但实际上包含了恶意负载的检查点文件。通过这种方式,他实现了远程代码执行,能够篡改模型权重、调整训练参数或窃取模型数据。
根据知名博主“Jack Cui”的分析,该实习生可能使用的就是这种方法:通过注入恶意代码动态修改其他人的优化器设置,改变参数梯度的方向,并且在训练过程中随机插入暂停指令(sleep)。这使得模型在反向传播时计算出的梯度被篡改,从而朝着错误的方向进行优化;同时,插入的暂停指令也显著减缓了模型训练的速度。
面对舆论的质疑,田某本人曾出面否认与此事有关,声称自己在发布论文后已经从字节离职,真正的幕后黑手可能是趁其离职之际嫁祸于他。
然而,一个多月后, 媒体报道显示,法院正式受理了字节跳动针对前实习生田某某提起的诉讼。最终判决要求田某某赔偿侵权造成的损失800万元人民币及合理费用2万元,并公开道歉。
字节官方进一步澄清,此次受到破坏的是研究项目,而非商业化的正式项目或公司的大型模型业务。
结果,这名实习生不仅被字节跳动辞退,而且案件也被移交至其所在学校处理。
最佳论文说了啥?
据悉,这篇NeurIPS 2024第六高分的论文(7,8,8,8)是田柯宇在字节跳动商业化技术部门实习期间,与团队合作发表的,题目为《Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction》(视觉自回归建模:通过Next-Scale预测生成可扩展图像)。
该研究重新定义了图像上的自回归学习,采用了从粗到细的“下一个尺度预测”或“下一个分辨率预测”的方法,而非传统的光栅扫描“下一个token预测”。这种多尺度的方法不仅模拟了人类感知图像的过程,即先捕获全局结构再逐步添加局部细节,而且在多个方面超越了当前主流的扩散模型。
根据论文报告,在ImageNet 256×256条件生成基准测试中,新模型——视觉自回归建模(VAR),将Fréchet Inception距离(FID)从18.65降低到了1.73,并且Inception得分(IS)从80.4提高到了350.2。此外,推理速度提高了20倍,展示了显著的性能提升和效率改进。
值得注意的是,VAR模型还在数据效率、零样本泛化能力以及下游任务应用等方面表现优异。例如,在图像修复、外延和编辑等任务中也展现了其价值。为了进一步推动这一领域的研究,田柯宇团队已将所有模型和代码开源至GitHub平台,获得了超过4.4k的星标关注。
尽管田柯宇因早前对实习公司的恶意攻击行为而面临法律诉讼,此次获奖无疑彰显了他的学术才能和技术实力。此事件也引发了关于个人行为与职业成就之间关系的讨论。