“ 心中有准备,手中有方向。 ”
来源 | 美股研究社
历史总是惊人的相似。
2022年11月30日,由OpenAI研发ChatGPT一经推出便凭借出色的自然语言处理能力,迅速在社交媒体上走红。短短5天,注册用户数就超过100万,到2023年1月末,其月活用户已突破1亿,成为史上增长最快的消费者应用。
ChatGPT的出现如同一颗重磅炸弹,在全球范围内掀起了AI热潮,股市炒作行情更是此起彼伏。
这一现象级的爆火,引发了各路产业资本、金融资本的高度关注,由此全球范围内掀起了AI热潮,相关概念股的炒作行情更是以年度级别展开。
两年后的2025年1月20日晚间,中国“名不经传”的AI初创企业深度求索公司(DeepSeek)正式发布推理大模型DeepSeek-R1因其可比肩OpenAIo1的性能、极低的服务价格,以及代码和模型架构的完全开源,再次震惊业界。
据报道,深度求索旗下AI智能助手应用DeepSeek已在美区下载榜上超越ChatGPT,并登顶苹果AppStore免费应用榜。
对此现象,AI科技初创公司ScaleAI的创始人亚历山大·王(AlexandrWang)给予了极高评价,称过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。
从量化投资到AI新秀,
DeepSeek两年实现弯道超车
刷屏海外科技界的国产AI黑马DeepSeek,是国内知名量化资管巨头幻方量化创立的大模型公司。
DeepSeek团队的核心特点是“年轻高潜”,即大多数成员的年龄在35岁以下,工作时间虽然不长但具有较高的潜力和智能,团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校。
其中,DeepSeek创始人梁文锋毕业于浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,且也是量化交易公司幻方量化的创始人之一。
基于梁文锋的专科出身,幻方量化的AI历程其实由来已久。2008年起,梁文锋便开始带领团队使用机器学习等技术探索全自动量化交易。
2015年,幻方量化正式成立,隔年便推出了第一个AI模型,并上线执行了第一份由深度学习生成的交易仓位,使用GPU进行计算,期间,幻方量化在量化投资过程中积累了大量数据处理和算法优化经验,同时拥有大量A100芯片,为AI模型训练提供了强大硬件支持。2017年,幻方量化宣称实现投资策略全面AI化,开始大规模布局AI算力,并搭建「萤火一号」「萤火二号」等高性能计算集群,为AI模型训练提供强大算力支持。
投资策略的AI化商业效果也十分喜人。截至2019年,幻方量化资金管理规模就突破百亿元,并在2021年突破千亿大关,跻身国内量化私募领域的“四大天王”之列。
在投资领域证明了AI化的奇效后,2023年,梁文锋宣布将正式进军通用人工智能领域,深度求索DeepSeek也由此创立,初心是要打造专注于做真正人类级别的人工智能。
成立不足一年时间,2024年5月,DeepSeek就发布混合专家语言模型DeepSeek-V2;截至年末,又推出了在知识问答、长文本处理、代码生成和数学能力等关键领域实力尤为突出的的大语言模型DeepSeek-V3。
以MMLU、GPQA等知识类任务为例,DeepSeek-V3表现接近国际顶尖模型Claude-3.5-Sonnet。在数学能力方面,更是在AIME2024和CNMO2024等测试中创造新纪录,超越所有已知的开源和闭源模型。同时,该模型生成速度较上代提升200%,达到60TPS,大为改善了用户体验。
根据独立评测网站ArtificialAnalysis的分析,DeepSeek-V3在多项关键指标上超越了其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不分伯仲。
更重要的是,优异性能下,该模型训练成本极具颠覆性。据该团队发布的技术报告,包括预训练、上下文长度外推和后训练在内,DeepSeek-V3完整训练只需2.788MH800GPU小时,其DeepSeek-V3仅为557万美元,远低于训练成本高达7800万美元的GPT-4;且其API服务价格亲民,输入tokens每百万仅需0.5元(缓存命中)或2元(缓存未命中),输出tokens每百万仅需8元。
如此高的性价比,DeepSeek-V3当时甚至被硅谷同行誉为“来自东方的神秘力量”,也有将之称为“AI界拼多多”的。《金融时报》将其描述为“震惊国际科技界的黑马”,认为其性能已与资金雄厚的美国竞争对手模型相媲美。Maginative创始人ChrisMcKay更是指出,DeepSeek-V3的成功或将重新定义AI模型开发的既定方法。
这种神秘力量仍未停歇。2025年1月20日,DeepSeek再次发布了性能堪比可OpenAIo1、服务价格却极低,且实现代码和模型架构完全开源的推理大模型DeepSeek-R1,引发全球科技界震惊。至今DeepSeek-R1已经出现多次宕机。截至1月27日11点,据DeepSeek官网显示,DeepSeek网页/API再次不可用。
DeepSeek-R1:
用创新打破AI研发“烧钱”定式
具体来看,目前被认为是DeepSeek-R1能至比肩ChatGPT的两个核心点,其一是DeepSeek-R1独特的技术原理和创新的训练方法;其二则是超乎寻常的低训练成本
首先,兼顾优异性能的极致成本。据网络公开资料,在训练阶段,DeepSeek-R1大规模使用了强化学习技术。强化学习是一种通过智能体与环境进行交互,根据环境反馈的奖励信号来学习最优行为策略的机器学习方法。
通过这种方式,DeepSeek-R1在仅有极少标注数据的情况下,极大地提升了模型的推理能力。与传统的监督学习需要大量标注数据不同,强化学习使得模型能够在更广泛的场景中自主学习和优化,大大提高了模型的适应性和泛化能力。
DeepSeek-R1的推理过程包含大量反思和验证,思维链长度可达数万字。这意味着模型在处理问题时,不再是简单地给出答案,而是能够像人类一样进行深度思考,逐步分析问题,展示出完整的思考过程。例如,在解决数学问题时,它会详细地列出每一步的推理逻辑,而不是直接给出结果,这种特性使得用户能够更好地理解模型的决策依据,增强了模型的可解释性。
在架构方面,DeepSeek团队提出了一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时独创的DeepSeek Moesparse结构也把计算量降到极致,最终促成了成本的下降。这不仅使得DeepSeek-R1在运行效率上大幅提升,还降低了硬件成本,为模型的广泛应用提供了有力支持。
近年来,全球AI大模型产业飞速发展,但遵循常规的规模定律(计算规模越大、训练数据量越多,模型越智能),不少企业陷入了一场关于顶尖人才、先进算力和巨额投资的“军备竞赛”。’
众多知名科技企业纷纷大量囤积芯片以确保充足算力。根据Omdia最新报告,英伟达最大买家微软为备战AI科技,曾购买48.5万块英伟达旗舰产品Hopper芯片,为英伟达去年贡献了20%的收入;第二大客户Meta去年也购买了22.4万块GPU;此后是预计分别购买19.6万和16.9万颗Hopper芯片的亚马逊、谷歌。
科技巨头或许有能力支撑这些巨额投入,但绝大多数玩家对这个“无底洞”望而却步。而且,越来越多科学家开始质疑堆数据、堆算力这种“大力出奇迹”的做法,与此同时海外高端芯片的出口管制增添了供给的不确定性。作为初创企业,DeepSeek不得不另辟蹊径。
正如Maginative创始人此前评价DeepSeek-V3的成功或将重新定义AI模型开发的既定方法,DeepSeek-R1再次用事实证明这个观点并非偶然。《金融时报》指出,DeepSeek的成功颠覆了“AI研发必须依赖巨额投入”的传统认知;《经济学人》表示,中国AI技术在成本效益方面的快速突破,已经开始动摇美国的技术优势;《纽约时报》则认为,则认为,DeepSeek-V3在性能上与美国公司的高端聊天机器人相当,但成本大大降低,显示了中国公司在芯片出口管制情况下的创新能力。
相比之下,ChatGPT虽然在自然语言生成方面表现出色,但在推理能力的深度和成本控制上,DeepSeek-R1展现出了独特的优势。
其次,该模型代码和训练方法的完全开源也令一众围观者叹为观止。
英伟达GEARLab项目负责人JimFan评价DeepSeek-R1时表示:“这代表着非美国公司正在践行OpenAI最初的开放使命,通过公开原始算法和学习曲线等方式实现影响力,顺便还内涵了一波OpenAI。DeepSeek-R1不仅开源了一系列模型,还披露了所有训练秘密。它们可能是首个展示RL飞轮重大且持续增长的开源项目。
影响力既可以通过“ASI内部实现”或“草莓计划”等传说般的项目实现,也可以简单地通过公开原始算法和matplotlib学习曲线来达成。”
金沙江创投朱啸虎在朋友圈发文称“DeepSeek是技术理想主义者的胜利”。
押宝A股新年红包行情,
不可不知的DeepSeek概念投资指南
技术理想主义者“胜利”后,在农历2024年A股最后一个交易日中,DeepSeek方向成为一众投资者的押宝对象。
截至1月27日,AI智能体、AI语料等概念在市场中涨幅居前。在DeepSeek概念个股中,每日互动、卓创资讯、美格智能等股价强势涨停,涨幅达到20%,包括华金资本、浙江东方等在内,约有10余只概念个股涨停。
其中,每日互动,华金资本、浙江东方等被传与DeepSeek存在股权关联。
每日互动,作为全国除互联网通信运营商之外最大的智能终端行为数据拥有者,开发者服务SDK累计安装量突破830亿。2024年10月18日,每日互动在与投资者互动时表示接入DeepSeek通用大模型。据券商纪要幻方核心高管曾为公司联合创始人。公司智能营销SaaS产品“数盘”,有望结合Agent和自身SaaS行业数据积累,开发出垂直场景类大模型应用在商业营销和公共服务领域,将"人工智能+"赋能千行百业。
浙江东方,是一家国有上市金控平台,主要涵盖信托、期货、人身险、财富管理、基金管理、基金投资、融资租赁等业务,是浙江省唯一国有信托公司。网传浙江东方间接参股DeepSeek,不过,经工商查询股东列表也无相关公司。
华金资本,实控人为珠海市国资委,是珠海金控旗下唯一控股的上市平台持有华金证券1.45%的股权。目前管理基金数达70只,包括创业基金、早期基金,以及市场化FOF等,在对外投资方面,已投了104家公司,A、B轮以及股权投资是公司的主要投资阶段,先进制造等是华金资本投资最多的领域。网传华金资本通过华金领越基金参与DeepSeekPre-A轮融资(经工商查询股东列表无相关公司)。
其余,合伙伙伴中,幻方量化曾调研过卓创资讯,网传深潜(Deepseek)大模型与卓创资讯在金融语料库方面有合作(未证实)。2025年1月7日互动,公司尚未与深潜深度求索建立业务合作关系。
美格智能,2025年1月26日在官微发文,公司凭借其高算力AI模组矩阵与端侧大模型部署经验,结合AIMO智能体等,正加速开发DeepSeek-R1模型在端侧落地应用及端云结合整体方案,2025年公司将推出单颗模组算力达到100Tops的高阶AI硬件,远期规划AI模组算力超过200TopS。
今日之后,国内春节假期将如期而至,A股中DeepSeek概念的炒作行情也将进入短暂的蛰伏期,但市场对其的关注并不会就此消散,春节期间,相关讨论和资讯大概率会在金融论坛和社交媒体上持续传播。
春节假期结束后,DeepSeek概念究竟是在短暂的冷却后加速发酵,还是因春节期间海外市场的负面表现而意外“炸雷”,成为投资者的“烫手山芋”,一切都充满变数,其难以预判。而投资者能做得则是当机会来临时,心中有准备,手中有方向。
【如需和我们交流可后台回复“进群”加社群】