本文来自“DeepSeek完全实用手册(120页)”,DeepSeek共研发开源十余款模型,目前最受关注的有V3对话模型和R1推理模型,分别于2024年12月26日和2025年1月20日先后发布。从反映关注度的微信指数上可以看出,两次模型发布都造成了后续DeepSeek关注度的飙升,12月28日DeepSeek指数达到约6000万,1月31日达9.8亿。
V3:是采用混合专家架构(MoE)的高性能对话模型,支持多任务处理并在代码生成、数学推理等场景表现优异。
R1:是基于强化学习训练的推理模型,专注于代码生成和复杂数学问题解决,推理能力通过蒸馏技术可迁移至小型模型。
从模型训练看,DeepSeek-V3 在2048 块H800 GPU 训练3.7天,换算成单块GPU共278.8万小时,以H800每小时2美元成本计算,最后一轮训练硬件成本仅约558 万美元;Meta同规格的Llama 3.1模型约花费9240万美元,相比高出16倍。
《42篇半导体行业深度报告&图谱(合集)
未完待续,请参考完整版报告“DeepSeek完全实用手册(120页)”,“北京大学:DeepSeek与AIGC应用(研讨版)”,“北京大学:DeepSeek提示词工程和落地场景(研讨版)”,获取更多内容......
8、《3+份技术系列基础知识详解(星球版)》
亚太芯谷科技研究院:2024年AI大算力芯片技术发展与产业趋势
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。