DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑

strongerHuang 2025-03-27 08:20



关注+星标公众,不错过精彩内容

来源 | 新智元

最近,DeepSeek-V3悄然升级!

新模型版本为DeepSeek-V3-0324,参数量为6850亿,相较上个版本参数增幅不大(6710亿)。

从发布时间和技术特点来看,DeepSeek-V3-0324,很可能是DeepSeek-R2的基础架构。

所以按照DeepSeek一贯的产品发布节奏(先推出基础模型,几周后再发布专门的推理增强版)来看,DeepSeek-R2很可能在几周后就将上线!

升级后的V3在代码、数学推理能力上,得到显著提升。尤其是代码领域,不少网友直呼「眼前一亮」。

相较于上一版,从一个球在超立方体弹跳的Python脚本,即可看出V3代码性能的改善。

甚至,它还能解锁Claude 3.7 Sonnet很多玩法,代码可以与之正面较量。

值得一提的是,DeepSeek V3另一大亮点在于采用MIT开源协议,上个版本还是自定义许可证。

这不仅可以自由修改、分发模型,还支持模型蒸馏、商业化应用。

模型文件总计641GB,主要以model-00035-of-000163.safetensors形式存在

685B虽大,但也能在消费级设备上跑起来。

这不,苹果机器学习工程师Awni Hannun就基于MLX框架和4-bit量化,在512GB M3 Ultra实现了超过20 token/s的运行速度。

这种量化方式直接将模型的磁盘占用空间减少到352GB。

有M3 Ultra的童鞋们,可以按照下面的方式使用llm-mlx跑起来:

llm mlx download-model mlx-community/DeepSeek-V3-0324-4bitllm chat -m mlx-community/DeepSeek-V3-0324-4bit
若是本地跑不了的朋友,除了官网之外,还可以在OpenRouter上体验。

体验地址:openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

相比起某些会在发布前数月就开始大肆宣传造势的O和A开头的AI公司,DeepSeek这种低调办大事的风格可谓是天壤之别。

没有白皮书,没有博客文章,只有一个空白的README文件和模型权重本身——上线即可直接可以下载使用。

新版V3代码能力飙升,追平Claude 3.7

遗憾的是,DeepSeek尚未公布新版模型的系统卡,暂时无法窥探更多技术细节。

官方小助手的更新提示

不过,这并未阻挡全网对新模型的热情,已有机构、网友纷纷对V3展开通用能力、代码、数学等多维度的测评。

根据网友Xeophon的自测,DeepSeek-V3-0324所有指标性能暴涨,击败了Claude 3.5 Sonnet,成为目前最强的非推理模型。

就代码能力来看,DeepSeek-V3-0324同样能够与Claude 3.5 Sonnet一决高下。

另外,在Aider的多语言基准测试中,DeepSeek-V3-0324拿下55%成绩,较前代版本显著提升,成为仅次于Sonnet 3.7的非推理类模型第二名。

其表现已可媲美R1和o3-mini等具备推理能力的模型。

网友「karminski-牙医」还带来了全网最速的代码实测,新模型直接干翻了DeepSeek R1,与Claude 3.7相匹敌。

在 KCORES大模型竞技场中,Claude-3.7-Sonnet-Thinking无疑是LLM当之无愧的王者,DeepSeek-V3-0324以328.3分拿下第三名,仅次于Claude 3.5 Sonnet。

他还展开了四项评测,20个小球碰撞测试,上个版本结果挤成一团,DeepSeek-V3-0324在物理模拟上表现更好。

在mandelbrot-set-meet-libai测试中,DeepSeek-V3-0324没有过多变化,较初版仅仅低了2分,完成度提升很高。
还有火星任务测试中,DeepSeek-V3-0324星球渲染正确,所有模型中位列第三。
九大行星测试,DeepSeek-V3-0324真正绘制出了太阳系的完整图。
此外,DeepSeek-V3-0324在Misguided Attention基准上,跃居非推理类模型榜首,甚至超越了Claude Sonnet 3.7(非推理模型)。

令人惊讶的是,它现在能解决一些此前只有推理模型才能处理的提示,比如「4升水壶问题」。

V3-0324似乎学会了识别推理循环,并跳出循环——这种能力甚至是许多专业推理模型都不具备的。

颜色越深代表特定提示的正确响应次数越多

接下来,看看DeepSeek-V3-0324在多项实测中的具体表现如何。

网友实测,一个提示即出网页

网友「Deepanshu Sharma」表示,更新后的DeepSeek-V3-0324简直「强的过分了」。

他用这个新模型一气呵成创建了一个新网站,编写了800多行代码,一次都没有出错!

「看到这些厉害的开源模型不断给大公司施加压力,迫使他们以低成本构建更好的模型,真是太棒了!」Deepanshu写道。

网友「Risphere」体验完新的DeepSeek-V3-0324后表示,其在编码方面已经与Claude 3.7 Sonnet处于同一水平上了。

要知道,Claude模型一直以来都是公认的代码能力最强的模型。

不仅如此,Risphere甚至认为DeepSeek-V3-0324在前端开发方面超越了o1-pro和GPT-4.5!

要知道,o1-pro可是需要付费200美元每月的ChatGPT Pro会员才可以体验的模型。

Petri Kuittinen体验完DeepSeek-V3-0324后认为,「Anthropic和OpenAI遇上麻烦了!」。

他使用了一段非常简短的提示词就制作出了一个精美的响应式网页,提示词如下:

Create a great-looking responsive front page for AI company. Include everything in one HTML5 file. 
为AI公司创建一个看起来很棒的响应式首页。将所有内容包含在一个HTML5文件中。

Petri认为,DeepSeek-V3-0324是在前端编程上也优于DeepSeek-R1。

他完成的这个网站共有958行代码,包括所有图像,而且也适合手机上观看。

 
 
 
 
左右滑动查看

不只是编程问题,数学竞赛也难不倒它。

数学博士、奥赛金牌得主Jasper用AIME 2025中的题目测试了一下DeepSeek-V3-0324,它顺利解决了。

Jasper表示,他现在对开源AI模型最终获胜更有信心了!

编码智能体Cline的速度很快,第一时间更新了DeepSeek-V3-0324。

他们还给出了使用的理由,DeepSeek-V3-0324在编码任务上性能与Claude 3.7 Sonnet不相上下,价格却低了53倍。

不止如此,Cline还表示,DeepSeek-V3-0324较之前的版本增加了60%的专家(从160增加到256),使用了FP8精度训练将计算效率翻倍,不仅使前端编码能力增强,数学与逻辑能力也有所提升。

DeepSeek注定改变全球AI格局

这次DeepSeek-V3的突然上线,节奏也与过去他们在圣诞节期间发布V3、几周后推出R1的模式完全吻合。

本来,业界就一直传闻R2将在4月亮相,V3的上线基本吹响了R2的前奏。

先进开源推理模型的影响,已经不必多说了。如果它们能免费提供,那原本只有财力雄厚的大型机构才能获得的高级AI系统,会变得人人可用。

而如果DeepSeek-R2能延续R1的发展路线,但它很可能会直接单挑OpenAI捂着的大炸弹GPT-5。这就让OpenAI靠封闭生态和雄厚资金支持带来的垄断,被彻底打破。

当OpenAI和Anthropic还在为模型设置付费访问限制时,DeepSeek已经实现了封闭模型无法达到的爆发式创新。

而中美AI差异,已经日渐缩小,全球AI格局已被重塑。几个月前,大部分分析师估计,中国在AI能力上落后美国1-2年,今天这一差距已经缩小至3-6个月,甚至呈现中国领先的趋势。

而开源的方式,甚至还解决了中国公司的特殊挑战(受限于英伟达先进芯片),因为更注重在算力有限的情况下达到有竞争力的性能,现在这已成为中国企业的潜在优势。

就像Android系统一样,凭着广泛的普及性和数千开发者的集体创新,DeepSeek很可能最终超越封闭系统。

谁将通过AI拥有对世界最大的影响力?让我们拭目以待。

参考资料:HNYZ
https://venturebeat.com/ai/deepseek-v3-now-runs-at-20-tokens-per-second-on-mac-studio-and-thats-a-nightmare-for-openai/
https://x.com/TheXeophon/status/1904225899957936314
https://x.com/cline/status/1904275590678786545
https://x.com/karminski3/status/1904212084306653648

------------ END ------------


图片

●专栏《嵌入式工具

●专栏《嵌入式开发》

●专栏《Keil教程》

●嵌入式专栏精选教程


关注公众号回复“加群”按规则加入技术交流群,回复“1024”查看更多内容。


点击“阅读原文”查看更多分享。

strongerHuang 作者黄工,高级嵌入式软件工程师,分享嵌入式软硬件、物联网、单片机、开发工具、电子等内容。
评论 (0)
  •       知识产权保护对工程师的双向影响      正向的激励,保护了工程师的创新成果与权益,给企业带来了知识产权方面的收益,企业的创新和发明大都是工程师的劳动成果,他们的职务发明应当受到奖励和保护,是企业发展的重要源泉。专利同时也成了工程师职称评定的指标之一,专利体现了工程师的创新能力,在求职、竞聘技术岗位或参与重大项目时,专利证书能显著增强个人竞争力。专利将工程师的创意转化为受法律保护的“无形资产”,避免技术成果被他人抄袭或无偿使
    广州铁金刚 2025-03-25 11:48 187浏览
  • WT588F02B是广州唯创电子推出的一款高性能语音芯片,广泛应用于智能家电、安防设备、玩具等领域。然而,在实际开发中,用户可能会遇到烧录失败的问题,导致项目进度受阻。本文将从下载连线、文件容量、线路长度三大核心因素出发,深入分析烧录失败的原因并提供系统化的解决方案。一、检查下载器与芯片的物理连接问题表现烧录时提示"连接超时"或"设备未响应",或烧录进度条卡顿后报错。原因解析接口错位:WT588F02B采用SPI/UART双模通信,若下载器引脚定义与芯片引脚未严格对应(如TXD/RXD交叉错误)
    广州唯创电子 2025-03-26 09:05 154浏览
  • 在智能语音产品的开发过程中,麦克风阵列的选型直接决定了用户体验的优劣。广州唯创电子提供的单麦克风与双麦克风解决方案,为不同场景下的语音交互需求提供了灵活选择。本文将深入解析两种方案的性能差异、适用场景及工程实现要点,为开发者提供系统化的设计决策依据。一、基础参数对比分析维度单麦克风方案双麦克风方案BOM成本¥1.2-2.5元¥4.8-6.5元信噪比(1m)58-62dB65-68dB拾音角度全向360°波束成形±30°功耗8mW@3.3V15mW@3.3V典型响应延迟120ms80ms二、技术原
    广州唯创电子 2025-03-27 09:23 217浏览
  • 在嵌入式语音系统的开发过程中,广州唯创电子推出的WT588系列语音芯片凭借其优异的音质表现和灵活的编程特性,广泛应用于智能终端、工业控制、消费电子等领域。作为该系列芯片的关键状态指示信号,BUSY引脚的设计处理直接影响着系统交互的可靠性和功能拓展性。本文将从电路原理、应用场景、设计策略三个维度,深入解析BUSY引脚的技术特性及其工程实践要点。一、BUSY引脚工作原理与信号特性1.1 电气参数电平标准:输出3.3V TTL电平(与VDD同源)驱动能力:典型值±8mA(可直接驱动LED)响应延迟:语
    广州唯创电子 2025-03-26 09:26 224浏览
  • 在智慧城市领域中,当一个智慧路灯项目因信号盲区而被迫增设数百个网关时,当一个传感器网络因入网设备数量爆增而导致系统通信失效时,当一个智慧交通系统因基站故障而导致交通瘫痪时,星型网络拓扑与蜂窝网络拓扑在构建广覆盖与高节点数物联网网络时的局限性便愈发凸显,行业内亟需一种更高效、可靠与稳定的组网技术以满足构建智慧城市海量IoT网络节点的需求。星型网络的无线信号覆盖范围高度依赖网关的部署密度,同时单一网关的承载设备数量有限,难以支撑海量IoT网络节点的城市物联系统;而蜂窝网络的无线信号覆盖范围同样高度依
    华普微HOPERF 2025-03-24 17:00 250浏览
  • 家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗?#70年代结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。#80年代随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这“新三件”,成为了人们对生活的新诉求。#90年代彩电、冰箱、全自动洗衣机开始大量进入普通家庭,快速全面普及,90年代末,家电产品实现了从奢侈品到必需品的转变。#00年代至今00年代,随着人们追求高品质生活的愿望,常用的电视机、洗衣机等已经远
    启英AI平台 2025-03-25 14:12 110浏览
  • 文/陈昊编辑/cc孙聪颖‍2025 年,作为中国实施制造强国战略第一个十年计划的关键里程碑,被赋予了极为重大的意义。两会政府工作报告清晰且坚定地指出,要全力加速新质生产力的发展进程,推动传统产业全方位向高端化、智能化与绿色化转型。基于此,有代表敏锐提议,中国制造应从前沿技术的应用切入,逐步拓展至产业生态的构建,最终延伸到提升用户体验的维度,打出独树一帜、具有鲜明特色的发展牌。正是在这样至关重要的时代背景之下,于 AWE 2025(中国家电及消费电子博览会)这一备受瞩目的舞台上,高端厨房的中国方案
    华尔街科技眼 2025-03-25 16:10 97浏览
  • 长期以来,智能家居对于大众家庭而言就像空中楼阁一般,华而不实,更有甚者,还将智能家居认定为资本家的营销游戏。商家们举着“智慧家居、智慧办公”的口号,将原本价格亲民、能用几十年的家电器具包装成为了高档商品,而消费者们最终得到的却是家居设备之间缺乏互操作性、不同品牌生态之间互不兼容的碎片化体验。这种早期的生态割裂现象致使消费者们对智能家居兴趣缺失,也造就了“智能家居无用论”的刻板印象。然而,自Matter协议发布之后,“命运的齿轮”开始转动,智能家居中的生态割裂现象与品牌生态之间的隔阂正被基于IP架
    华普微HOPERF 2025-03-27 09:46 161浏览
  • 六西格玛首先是作为一个量度质量水平的指标,它代表了近乎完美的质量的水平。如果你每天都吃一个苹果,有一间水果店的老板跟你说,他们所卖的苹果,质量达到六西格玛水平,换言之,他们每卖一百万个苹果,只会有3.4个是坏的。你算了一下,发现你如果要从这个店里买到一个坏苹果,需要805年。你会还会选择其他店吗?首先发明六西格玛这个词的人——比尔·史密斯(Bill Smith)他是摩托罗拉(Motorloa)的工程师,在追求这个近乎完美的质量水平的时候,发明了一套方法模型,开始时是MAIC,后来慢慢演变成DMA
    优思学院 2025-03-27 11:47 194浏览
  • 汽车导航系统市场及应用环境参照调研机构GII的研究报告中的市场预测,全球汽车导航系统市场预计将于 2030年达到472亿美元的市场规模,而2024年至2030年的年复合成长率则为可观的6.7%。汽车导航系统无疑已成为智能汽车不可或缺的重要功能之一。随着人们在日常生活中对汽车导航功能的日渐依赖,一旦出现定位不准确或地图错误等问题,就可能导致车主开错路线,平白浪费更多行车时间,不仅造成行车不便,甚或可能引发交通事故的发生。有鉴于此,如果想要提供消费者完善的使用者体验,在车辆开发阶段便针对汽车导航功能
    百佳泰测试实验室 2025-03-27 14:51 251浏览
  • 案例概况在丹麦哥本哈根,西门子工程师们成功完成了一项高安全设施的数据集成项目。他们利用宏集Cogent DataHub软件,将高安全设施内的设备和仪器与远程监控位置连接起来,让技术人员能够在不违反安全规定、不引入未经授权人员的情况下,远程操作所需设备。突破OPC 服务器的远程连接难题该项目最初看似是一个常规的 OPC 应用:目标是将高安全性设施中的冷水机(chiller)设备及其 OPC DA 服务器,与远程监控站的两套 SCADA 系统(作为 OPC DA 客户端)连接起来。然而,在实际实施过
    宏集科技 2025-03-27 13:20 139浏览
  • 在智能终端设备开发中,语音芯片与功放电路的配合直接影响音质表现。广州唯创电子的WTN6、WT588F等系列芯片虽功能强大,但若硬件设计不当,可能导致输出声音模糊、杂音明显。本文将以WTN6与WT588F系列为例,解析音质劣化的常见原因及解决方法,帮助开发者实现清晰纯净的语音输出。一、声音不清晰的典型表现与核心原因当语音芯片输出的音频信号存在以下问题时,需针对性排查:背景杂音:持续的“沙沙”声或高频啸叫,通常由信号干扰或滤波不足导致。语音失真:声音断断续续或含混不清,可能与信号幅度不匹配或功放参数
    广州唯创电子 2025-03-25 09:32 116浏览
  • 在电子设计中,电磁兼容性(EMC)是确保设备既能抵御外部电磁干扰(EMI),又不会对自身或周围环境产生过量电磁辐射的关键。电容器、电感和磁珠作为三大核心元件,通过不同的机制协同作用,有效抑制电磁干扰。以下是其原理和应用场景的详细解析:1. 电容器:高频噪声的“吸尘器”作用原理:电容器通过“通高频、阻低频”的特性,为高频噪声提供低阻抗路径到地,形成滤波效果。例如,在电源和地之间并联电容,可吸收电源中的高频纹波和瞬态干扰。关键应用场景:电源去耦:在IC电源引脚附近放置0.1μF陶瓷电容,滤除数字电路
    时源芯微 2025-03-27 11:19 212浏览
  • 在当今竞争激烈的工业环境中,效率和响应速度已成为企业制胜的关键。为了满足这一需求,我们隆重推出宏集Panorama COOX,这是Panorama Suite中首款集成的制造执行系统(MES)产品。这一创新产品将Panorama平台升级为全面的工业4.0解决方案,融合了工业SCADA和MES技术的双重优势,帮助企业实现生产效率和运营能力的全面提升。深度融合SCADA与MES,开启工业新纪元宏集Panorama COOX的诞生,源于我们对创新和卓越运营的不懈追求。通过战略性收购法国知名MES领域专
    宏集科技 2025-03-27 13:22 241浏览
  • ​2025年3月27日​,贞光科技授权代理品牌紫光同芯正式发布新一代汽车安全芯片T97-415E。作为T97-315E的迭代升级产品,该芯片以大容量存储、全球化合规认证、双SPI接口协同为核心突破,直击智能网联汽车"多场景安全并行"与"出口合规"两大行业痛点,助力车企抢占智能驾驶与全球化市场双赛道。行业趋势锚定:三大升级回应智能化浪潮1. 大容量存储:破解车联网多任务瓶颈随着​车机功能泛在化​(数字钥匙、OTA、T-BOX等安全服务集成),传统安全芯片面临存储资源挤占难题。T97-415E创新性
    贞光科技 2025-03-27 13:50 195浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦