作者 | 闫军
国务院总理李强20日下午主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。
国产大模型企业深度求索(DeepSeek)创始人梁文锋出席此次座谈会,这一信息立马被市场捕捉到。梁文锋既是深度求索(DeepSeek)创始人,也是头部量化私募幻方的创始人,创业范畴横跨金融和人工智能领域。
市场尤为关注的是,梁文锋在新年首场总理座谈会上,究竟讲了什么?据记者多方了解,座谈涉及的内容为国产大模型的发展和前景。
从履历来看,梁文锋17岁考入浙大,30岁创办幻方,幻方在2021年一度突破千亿规模,这一年他才36岁。随后,在2023年7月成立了深度求索(DeepSeek),公开资料显示,也是国内少有的拥有万卡集群算力的AI大模型公司。
深度求索(DeepSeek)在国内外的声名似在超越幻方量化,在成立仅一年半后,国产大模型DeepSeek-V3在2024年底火爆全球。在行业人士看来,这也是梁文锋出席新年首场总理座谈会的重要原因。
DeepSeek之所以被科技圈关注,在于DeepSeek-V3的出现极大地降低了大模型训练和应用的成本,DeepSeek-V3训练成本仅557.6万美元,而OpenAI训练ChatGPT-4o所花费的成本高达7800万美元甚至是1亿美元,双方的成本至少是10倍的差距。
在性能上,DeepSeek-V3在数学、代码能力和中文知识问答方面还超过了ChatGPT-4o,行业震惊于这一性价比,DeepSeek-V3 开源给全世界的技术开发团队。“AI界的拼多多“的称号也由此而来。
在团队配置上, DeepSeek团队只有139名研发人员,对比ChatGPT的OpenAI团队则有1200名研究人员,团队规模是DeepSeek的近乎9倍之多。近期热门话题“雷军千万年薪挖95后天才AI少女”,这位AI少女就是DeepSeek团队的研发人员。
就在1月20日,深度求索(DeepSeek)正式发布DeepSeek-R1模型。
该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。DeepSeek称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型开源给社区,允许用户借此训练其他模型。
根据此前资料显示,DeepSeek暂时没有商业化的考虑。
对于国产大模型公司在列总理座谈会,被业内解读为国家对科技的重视。值得注意的是,这次座谈会上,李强强调,要以科技创新推动新旧动能转换,集中力量突破关键核心技术和前沿技术,加快推进科技成果产业化,努力培育更多经济新增长点。