起底DeepSeek公司

原创射频美学 2025-01-30 10:27 12194浏览 0评论 5点赞

AI、GUI开发的工程师必修课，不容错过！ AI开发的实战机会来了！

关注 ▲射频美学 ▲ ，一起学习成长

这是射频美学的第 1810 期分享。

来源 | 原创；

微圈 | 进微信群,加微信: RFtogether521 ；

备注 | 昵称+地域+产品及岗位方向（如大魔王+上海+芯片射频工程师）；

宗旨 | 看见即自由。

最近DeepSeek公司比较火，美国的一把山林大火，几个星期烧掉了加州2500亿美元。而DeepSeek横空出世，纳斯达克大跌3%，瞬间烧掉了5000多亿。什么概念？如果把这5000多亿换成百元美刀，用飞机来运到焚烧厂去烧，需要87架满载的空客380。

1月27日，DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。

同日，苹果中国区应用商店免费榜显示，DeepSeek成为中国区第一。

美国人吓坏了。

01-DeepSeek公司简介

DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月17日，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术。

在团队配置上， DeepSeek团队只有139名研发人员，相比OpenAI拥有1200名研究人员，团队规模是DeepSeek的近乎9倍之多。

算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人。比如前段时间的热门话题“雷军千万年薪挖95后天才AI少女”，这位“95后AI天才少女”罗福莉，就是DeepSeek开源大模型DeepSeek-V2的关键开发者之一。

其核心人员有以下几位。

•梁文锋：DeepSeek的创始人，浙江大学信息与通信工程专业的硕士。

• 高华佐：MLA架构的关键贡献者，毕业于北大物理系。

• 曾旺丁：MLA架构的关键贡献者，来自北邮，其研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。

• 邵智宏：清华大学交互式人工智能（CoAI）课题组博士生，主要研究自然语言处理、深度学习，对构建稳健且可扩展的AI系统有着独特见解。

• 朱琪豪：北京大学计算机学院2024届的博士毕业生，专注于深度代码学习研究，是GRPO算法创新的另一重要贡献者。

• 代达劢：北京大学计算机学院2024年博士毕业生，师从穗志方教授。

• 赵成钢：负责DeepSeek大模型训练及推理基础架构的工程师，加入DeepSeek之前，曾在英伟达公司实习。

• Peiyi Wang：北大博士生，参与了DeepSeek-Math项目。

• 王炳宣：清华博士生。

• 吴作凡：中山大学博士生。

• 任之洲：中山大学博士生。

• 周雨杨：中山大学博士生。

• 罗翔煜：中山大学博士生。

02-梁文锋何许人也？

低调的梁文锋是个80后，出生在广东的一个五线城市，父亲是一名小学老师。他毕业于浙江大学，主修软件工程，人工智能方向。

17岁时，梁文锋考入浙大，读的是电子工程系人工智能方向，毕业后在浙大攻读硕士研究生，论文题目是《基于低成本PTZ摄像机的目标跟踪算法研究》。

2015年，30岁的梁文锋和朋友一起创办了杭州幻方科技有限公司，立志成为世界顶级的量化对冲基金。2016年10月，幻方量化推出第一个AI模型，第一份由深度学习生成的交易仓位上线执行。到2017年底，几乎所有的量化策略都采用AI模型计算。

2023年5月，38岁的梁文锋宣布做通用人工智能（AGI）。7月，他正式创办杭州深度求索人工智能基础技术研究有限公司，就是DeepSeek公司，专注于AI大模型的研究和开发，公司设在杭州。

从公开的工作经历和职业生涯来看，梁文锋在量化投资和高性能计算领域具有深厚的背景和丰富的经验，创业范畴横跨金融和人工智能领域。

03-DeepSeek发展进程

‌2023年7月‌：DeepSeek成立，总部位于杭州‌。

‌2023年11月2日‌：发布首个开源代码大模型DeepSeek Coder，支持多种编程语言的代码生成、调试和数据分析任务‌。

2023年11月29日‌：推出参数规模达670亿的通用大模型DeepSeek LLM，包括7B和67B的base及chat版本‌。

‌2024年5月7日‌：发布第二代开源混合专家(MoE)模型DeepSeek-V2，总参数达2360亿，推理成本降至每百万token仅1元人民币‌。

‌2024年12月26日‌：发布DeepSeek-V3，总参数达6710亿，采用创新的MoE架构和FP8混合精度训练，训练成本仅为557.6万美元‌。

‌2025年1月20日‌：发布新一代推理模型DeepSeek-R1，性能与OpenAI的GPT-4o持平，并开源‌。

2025年1月26日‌：DeepSeek登顶美区App Store免费榜第六，超越Google Gemini和Microsoft Copilot等产品‌。

1月27日，DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。

04-DeepSeek为啥能火？

在硅谷，DeepSeek很早就被称作“来自东方的神秘力量”，也是网上热议的“杭州六小龙”之一。

真正让DeepSeek火出圈的是2024年12月26日，这家公司宣布上线并同步开源的 DeepSeek-V3模型，并公布了长达53页的训练和技术细节。

它以1/11的算力、仅2000个GPU芯片训练出性能超越GPT-4o的大模型。其总训练成本只有557.6万美元，而GPT-4o的约为1亿美元，使用25000个GPU芯片。双方的成本至少是10倍的差距。

在性能上，DeepSeek-V3在数学、代码能力和中文知识问答方面还超过了ChatGPT-4o。

国外独立测评机构Artificial Analysis测试后，发出了“超越了迄今为止所有开源模型”的惊叹；Meta科学家田渊栋感慨：“这是非常伟大的工作。”

“性价比”是商业社会中的制胜法宝之一，DeepSeek也因创新的模型架构和史无前例的性价比被称为“大模型界的拼多多”，引发字节、阿里、百度等大厂的大模型价格大战。

——END——

声明：欢迎转发本号原创内容，转载和摘编需经本号授权并标注原作者和信息来源为射频美学。本公众号目前传播内容为本公众号原创、网络转载、其他公众号转载、累积文章等，相关内容仅供参考及学习交流使用。由于部分文字、图片等来源于互联网，无法核实真实出处，如涉及相关争议，请跟我们联系，我们致力于保护作者知识产权或作品版权，本公众号所载内容的知识产权或作品版权归原作者所

更多好文请关注公众号
↓↓

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

射频美学中国射频产业入口，从沙子到产品的整个过程。 1、专注射频生态美学，包括但不限于芯片、通信、终端等； 2、射频行业、科技产品、新技术、个人成长等相关信息； 3、射频培训等。射频小助理---射频心理咨询师。

进入专栏

文章：640篇粉丝：12人

关注  私信

起底DeepSeek公司

更多好文请关注公众号
↓↓

最近文章

热门文章

推荐

最新资讯

起底DeepSeek公司

更多好文请关注公众号↓↓

最近文章

热门文章

推荐

最新资讯

更多好文请关注公众号
↓↓