不久前,斯坦福公开了一个名为 Alpaca 的新模型。(俗称“羊驼”)它使用了 GPT3.5 生成的 52k 个指令训练,训练费用只花了 500 美元,但是性能可以与 GPT-3.5 相媲美。
然而由于使用了 GPT3.5 的指令数据,使用条款禁止开发与 OpenAI 竞争的模型,因此 AIpaca 禁止了商用。
其实 Vicuna 说白了就是一款新的“ChatGPT”,它和 Google Bard、ChatGPT 还有 New Bing 都一样,都是聊天机器人(Chatbots)。
初步评估上,Vicuna-13B 达到了 ChatGPT 能力的 92%;几乎要比 Google Bard 更强;同时远远甩开其他模型,如 LLaMA 和它的前辈——斯坦福的 Alpaca。
而训练 Vicuna-13B 的成本是仅仅 300 美元。可能还没有屏幕前的你游戏显卡的价格高。
Vicuna 在推出后面临的一个问题是,自己的模型质量究竟如何。显然作为学术机构没办法像大公司养着几百上千的测试团队进行大量测试,于是他们另辟蹊径——既然人力太贵,那就用刚刚推出的 GPT-4 来评测嘛。
具体操作上,他们提出了一个评估框架。设计了九大主题下共计八十条测试问题,然后把由其他模型和自家 Vicuna 的回答交给 GPT-4 进行评估(“哪个虚拟助理的回答更好”)。
惊人的是在这八十个问题的评估上,Vicuna 已经能微微赢下 Google 重注的 Bard,更是把自己的“祖父模型”LLaMA-13B、AIpaca-13B 杀得片甲不留。
尽管问题的胜出数量上比不过 ChatGPT,但以 10 分制的角度切入,Vicuna 也已经实现了 ChatGPT 超过 90%的质量。
不得不说,“羊驼”AIpaca用 GPT-3.5 生成的指令训练模型,而“小羊驼”Vicuna在此基础上又用 GPT-4 评估模型,斯坦福他们是懂人工智能的。
进入Vicuna主页,不必注册登录;直接输入想要的内容,然后等待Vicuna为你生成。全程一分钟,行云流水丝毫不卡顿。
作为大语言模型,中英文自然是通吃。
ChatGPT 训练费用高企甚至一次训练就要接近上亿美金,然而 Vicuna 只花了 300 美元。从效果上看就达到了 GPT3.5 质量的 90%。这是怎么做到的?
其实Vicuna的逻辑在人工智能领域叫做“知识蒸馏”(knowledge distillation),即通过将大型模型的知识转移到小型模型中,从而快速达到想要的模型质量,同时减少计算成本。
通常,大型模型(即“Teacher”)会生成训练数据,小型模型(即“Student”)则使用这些数据来学习大型模型的知识和能力。
通过这种方式,小型模型可以在自己的场景下获得大型模型90%甚至99%的能力,这意味着,可用于生成模型的领域将呈指数级增长。
在Vicuna公布的训练过程里,一开始,开发团队是从 ShareGPT (与 ChatGPT 对话内容的UGC网站)上收集了七万条对话。这恰恰是“知识蒸馏”里最重要的“训练数据”。
而训练方法上则是选择了在“羊驼”AIpaca(成本已降低至500美元)上优化。
这两个最重要的环节就使得Vicuna同时在训练成本和训练质量上均有突出优势。
一个小插曲是,作者在撰写稿件搜集资料时,看到小羊驼的开发团队不禁虎躯一震。
包括 Wei-Lin Chiang、Zhuohan Li、Zi Lin、Ying Sheng、Zhanghao Wu、Hao Zhang、Lianmin Zheng、Siyuan Zhuang 和 Yonghao Zhuang,这学生团队是清一色的全员华人,不免让人感慨。
从本质上来说,ChatGPT这种大语言模型就是通过烧钱烧算力烧数据达到'大力出奇迹'的效果。
而这也带来了一个问题,即这样的大语言模型烧钱的程度会让很多小公司望而却步,只能加入霸权垄断的圈子。
而对于像小红书/B站这样不上不下的公司,既承担不起自己训练大模型的成本,也不愿意将自己内容池的数据拱手让人,其实是陷入蛮尴尬的境地。
Vicuna展现了另一种可能性,即通过“知识蒸馏”的方式,以极低的价格复刻大语言模型90%甚至99%的能力。
而这就意味着哪怕是刚刚创业的小公司也完全负担得起一个独属于自己体系的AI的训练成本。