1957年10月4日,苏联成功发射了"斯普特尼克1号"人造卫星。消息传出后,从华盛顿到伦敦,整个西方都陷入了震惊和恐慌——因为这意味着:西方国家开始在技术上落后于非西方的国家。
从此之后,"斯普特尼克时刻"也就成了一个专有词汇,特指那些使得西方国家陷入技术落后局面的事件。
现在,"斯普特尼克时刻"又来了:顶着各种制裁,用着远低于美国科技企业的预算,一家中国企业开发的AI大模型,竟然实现了近似于GPT-4o大模型的效果。
更重磅的是:就在今天中午时分,DeepSeek已经登顶了中国和美国的应用商店,拆过了ChatGPT,成为了最受欢迎的AI应用。这个历史性的时刻,至少在目前十年内绝无仅有。
这家中国企业,叫幻方量化。他们开发的AI大模型,就是这几天爆火的Deepseek(深度求索)。《黑神话:悟空》背后的那个男人,Yocar冯骥将其称为“国运级别的科技成果”。
今天,我们就来聊聊Deepseek,看它为何能成为AI界的"斯普特尼克"。
底层技术路线的突破
从技术原理上来说,Deepseek的成功,尤其是最新一代deepseek R1的成功,来自于它所采用的RL强化学习策略,这是它以极低的成本却可以实现和GPT-4o差不多效果的根本原因。
要理解这种颠覆性,得先看清传统AI的局限。
在之前的文章里,我们就认为当下AI的故事很可能已经讲不下去了——因为以GPT为代表的传统AI,其策略的本质是"在人类监督下的猜字谜游戏"——GPT们其实并不会思考,它们虽然会生成看上去还挺靠谱的回答,但它们做出这些回答并不是它们了解事物运行的原理,而是这样回答有更大概率被人类所接受。
这种猜字谜的游戏,最多也就是生成一些"看似靠谱实则无法深究"的东西,根本没有办法投入现实、转化为生产力工具。早期绘画AI经常把人画出六个指头也是类似的原因——AI根本不知道人的手掌上应该有几个指头,它只是生成一个"乍一看还可以"的东西。
但deepseek不一样,deepseek是真的会思考的。
以现在爆火的deepseek R1来说,它完全抛弃了那种"猜字谜"的训练方式,转而采用了之前在围棋和智能驾驶领域常用的RL策略(强化学习)。
如果说以前的策略是人类告诉AI什么是对的什么是错的,AI只是在人类的指导下对人类进行模仿。那么RL就是人类仅仅起一个"引进门"的作用,剩下的"修行"就全部靠AI自己慢慢学习了。
这种"修行"在最初阶段或许很笨拙,但越训练AI的能力就越强——关键在于AI不需要遵循人类的生理极限。人类要吃饭睡觉,但AI不用,在高性能芯片的加持下,AI训练一年所见识过的棋局、游戏,往往比一个职业棋手、职业电竞玩家十辈子见过的都多——老司机哪怕开一辈子车,最多也就开个几百万公里。但自动驾驶AI只要开始训练,公里数就是以亿为单位计算了。
简而言之就是:RL策略,是真正地让AI学会认识世界、了解事物规律,而不是亦步亦趋地迎合人类的口味——这也就是为什么很多人在看到deepseek的成功后都认为2025年将会是RL强化学习的元年。
没办法,RL策略现在看来确实是太诱人了。
技术突破带来的降本增效
当技术路线换道超车,成本结构就会发生核爆式变革。
因为底层的技术路线上颠覆了以GPT为代表的传统AI,所以deepseek R1把性价比拉高到了一个不可思议的程度——相比起硅谷那群人动辄数亿数十亿美金的投资和数万张显卡的超级集群,我们仅仅靠着2000多张显卡和600万美元左右的成本就实现了近似乃至更好的效果。
用美国META公司一位匿名员工的话来说:"META内部一个负责AI项目的高管年薪拿出来,就足够训练deepseek了,而这样高薪的高管,META有几十个。"
......我只能说:跟着这群虫豸在一起,怎么能搞好AI呢?
同时,这波操作直接改写了游戏规则。deepseek的颠覆式创新也向外界传播了一个信息:不需要那么高的投入,也不需要那么多英伟达的GPU,你也可以做出很棒的大模型——OpenAI训练GPT-4耗费约6300万美元和25000张A100显卡,而Deepseek R1仅用600万美元达到可比效果,甚至可能用的还是国产显卡。