正当全国人民都在欢天喜地过大年的时候,国产AI大模型公司——DeepSeek(深度探索)发布了其最新成果——DeepSeek V3。就是这个国产AI成果直接暴击了美国股市,昨天(1月27日)美国纳斯达克指数重挫3%,为六周来最大跌幅,市值较上周五减少近1万亿美元;尤其是全球AI芯片巨头英伟达暴跌17%,一天市值蒸发将近6000亿美元,创下美股历史之最。一家国产AI初创公司之所以能产生如此巨大的冲击,甚至动摇了美国在人工智能领域的主导地位。主要有以下几个因素:之所以DeepSeek能够暴击英伟达为代表的美国科技产业,其最直接的原因在于DeepSeek的极致成本控制;以DeepSeekV3为例,其训练任务在2048个H800 GPU上完成,在整个训练过程中,这些GPU的总使用时长为2788千小时(其中预训练为2664千小时),平均到每个GPU上,使用时间约为1361小时,即约56.7天;总共训练成本为557.6万美元。这一成本远低于其他顶级模型的训练成本;相比Meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时,其训练成本超6000万美元;DeepSeek-V3的总训练成本不到其十分之一。而相比GPT-4的训练成本高达10亿美元,更是小巫见大巫,其费用为OpenAI最新大模型的三十分之一。训练成本的下降也直接将使用成本打到地板;以DeepSeek2023年1月20日发布的推理大模型DeepSeek-R1为例,作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。
更具DeepSeek-R1 API服务定价,其为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元,输出API价格只有OpenAI o1的3%。而DeepSeek低价的背后,是领先全球的技术实力——从底层技术的降本能力。DeepSeek是一家专注于研究世界领先的通用人工智能(AGI)底层模型与技术,致力于挑战人工智能的前沿性难题的中国公司。其在在通用人工智能底层模型与技术、MoE架构、自然语言处理和机器学习算法、创新的技术架构和算法以及广泛的应用场景等方面均展现了全球领先的技术能力。根据DeepSeek1月28日正式发布的最新开源多模态AI模型——Janus-Pro;技术创新之处在于其解耦了视觉编码,将视觉理解与图像生成任务分开处理,从而确保了两个任务不会互相干扰。这一设计使得Janus-Pro在多模态理解和生成任务中都取得了优异的性能。Janus-Pro还采用了自回归框架和独立的编码方法,进一步提高了模型的性能和稳定性。根据DeepSeek公布的数据,其新开源的Janus-Pro-7B模型在Geneval和DPG-Bench等基准测试中,性能超越了OpenAI的DALL-E 3和Stable Diffusion等业界知名模型。也就是说,DeepSeek不仅在传统大语言模型技术上取得了显著的成就,同时在最新的多模态领域也即将颠覆美国领先的AI科技公司。但飙叔认为,最让美国AI公司绝望还在于——全国产人才!根据业界的普遍说法,目前全球前50的人工智能人才主要在美国,中国一个也没有,也就是说人工智能顶尖人才美国断档式的领先全球。
但神话总是用来打破的,根据业界消息:目前DeepSeek团队不到140人,但 “人才密度”极高,成员多是来自清华、北大、北航等顶尖高校的应届博士毕业生、在读生以及硕士生。值得一提的是,团队没有“海归”,完全本土人才。
根据DeepSeek创始人梁文峰接受媒体采访的说法:我们的核心技术岗位主要由今年或过去一两年毕业的人员担任。如此前,DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉就曾被雷军以千万年薪招揽。
这意味着,DeepSeek一己之力打破了美国在“人工智能领域”的全球垄断,也证明了中国年轻科技人员的能力和实力。用《黑神话:悟空》制作人冯骥评价DeepSeek:可能是个国运级别的科技成果。当然,特别值得一提的是,DeepSeek一直坚持开源,因而随着其不断推出高性能的开源AI模型,其在全球科技圈的影响力将持续扩大,为全球AI技术的发展注入新的活力和动力。飙叔感谢您花时间关注与分享,感谢在我的人生道路中多了这么多志同道合的朋友,一起关注国产光刻机、国产芯片、国产半导体艰难突破之路;一起分享华为海思、华为鸿蒙及华为手机等华为产业为代表的中国ICT产业崛起的点点滴滴;从此生活变得不再孤单,不再无聊!
| 勾搭飙叔,请扫码 |