微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

OpenCV学堂 2025-02-28 23:39



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】Phi-4系列模型上新了!56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体,读图推理性能碾压GPT-4o;另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM,支持128K token上下文。

今天,微软CEO纳德拉官宣,Phi系列家族新增两员:Phi-4-multimodal和Phi-4-mini。

这是微软Phi系列小模型(SLM)中的最新模型,尤其是Phi-4-multimodal是微软的首款多模态模型。

这两款模型虽然参数不大(56亿和38亿),但性能强劲,甚至不输一些大型的开源模型,例如Llama-3.3-70B-Instruct、Qwen2.5-72B-Instruct。

其中,Phi-4-multimodal是一款单体模型,采用混合LoRA技术,集成了语音、视觉和文本多模态能力,皆可在同一表示空间内同时处理。

Phi-4-mini支持128k上下文,还可以借用函数调用功能,在基于文本的任务中表现出色,以紧凑的形式提供了高精度和可扩展性。

与此同时,Phi-4新款模型39页技术报告新鲜出炉了。

论文地址:https://huggingface.co/microsoft/Phi-4-multimodal-instruct/blob/main/phi_4_mm.tech_report.02252025.pdf

值得一提的是,Phi-4-mini在Math-500数学测试集中,拿下了90.4分惊人的成绩,与蒸馏千问7B后的DeepSeek R1、o1-mini不相上下。

现在,Phi-4-multimodal可以在Azure AI Foundry、HuggingFace和NVIDIA API Catalog中使用,开发者可以在NVIDIA API Catalog上探索Phi-4-multimodal的全部潜力,从而轻松地进行实验和创新。

传送门:https://huggingface.co/microsoft/Phi-4-multimodal-instruct

Phi-4-multimodal,微软首个多模态


Phi-4-multimodal作为微软首个全模态语言模型,标志着微软人工智能开发的一个新里程碑。

它是一个56亿参数的模型,将语音、视觉和文本处理无缝集成到一个统一的架构中。

通过利用先进的跨模态学习技术,该模型实现了更自然、更具上下文感知能力的交互,使设备能够同时理解和推理多种输入模态。

无论是解释口语、分析图像还是处理文本信息,它都能提供高效、低延迟的推理——同时还针对设备端执行和减少计算开销进行了优化。

举个栗子,上传一张与不同时代(Z世代、千禧一代、X世代、婴儿潮一代等)在工作中使用非组织提供的AI工具的百分比图像。

Phi-4-multimodal看懂图之后,就能帮你出一个Markdown形式的表格,并且与之相关的问题均可以答对。

原生支持多模态

Phi-4-multimodal是一个单一模型,采用了混合LoRA(Low-Rank Adaptation)技术,集成了语音、视觉和语言功能,所有这些都在同一个表示空间内同时处理。

其结果是一个统一的单一模型,能够处理文本、音频和视觉输入,无需复杂的处理流程或为不同模态使用单独的模型。

Phi-4-multimodal基于一种全新的架构,显著提升了效率和可扩展性。它拥有更大的词汇量以改进处理能力,支持多语言功能,并将语言推理与多模态输入相结合。所有这些都集成在一个强大、紧凑且高效的模型中,非常适合在设备端和边缘计算平台上部署。

Phi-4-multimodal整体架构

解锁新能力


Phi-4-multimodal能够同时处理视觉和音频内容。

下图1展示了当视觉内容的输入为合成语音时,模型在图表/表格理解和文档推理任务上的表现。与其他现有的能够同时处理音频和视觉信号作为输入的最先进多模态模型相比,Phi-4-multimodal在多项基准测试中取得了显著更强的性能。

Phi-4-Multimodal-Instruct音频和视觉基准

Phi-4-multimodal在语音相关任务中展现了卓越的能力,成为多个领域的领先开源模型。

它在自动语音识别 (ASR) 和语音翻译 (ST) 方面超越了WhisperV3和SeamlessM4T-v2-Large等专业模型。该模型以惊人的6.14%词错误率登顶Huggingface OpenASR排行榜,超过了截至2025年2月之前的最佳表现6.5%。

此外,Phi-4-multimodal是少数成功实现语音摘要并达到与GPT-4o模型相当性能水平的开源模型之一。

在语音问答 (QA) 任务中,该模型与Gemini-2.0-Flash和GPT-4o-realtime-preview等相近模型存在差距,因为其较小的模型规模导致事实性问答知识的能力较弱。

下图2比较了不同AI模型在语音识别、语音翻译、语音问答、音频理解和语音摘要等类别中的表现。模型包括Phi-1-Multimodal-Instruct、Qwen-2-Audio、WhisperV3、SeamlessM4T-V2-Large、Gemini-2.0-Flash和GPT-4-turbo-preview-10-01-2024。

Phi-4-Multimodal-Instruct在语音识别和翻译中表现优异,而Gemini-2.0-Flash和GPT-4o-RT-preview在问答和音频理解任务中领先。

图2:Phi-4-Multimodal-Instruct语音基准测试

以下视频为Phi-4 Multimodal分析口语语言,以帮助规划前往西雅图的旅行,展示了其先进的音频处理和推荐能力。

Phi-4-multimodal仅拥有56亿个参数,却在多个基准测试中展现了卓越的视觉能力,尤其在数学和科学推理方面表现突出。

尽管其规模较小,该模型在通用多模态能力上仍保持竞争力,例如文档和图表理解、光学字符识别 (OCR) 以及视觉科学推理,甚至超过了Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等模型。

如下图3所示,Phi-4-Multimodal-Instruct在多个任务中表现出色,如MMMU (55.1)、ScienceQA (97.5) 和 ChartQA (81.4),而GPT-4o和Gemini-2.0-Flash在综合性能上得分较高。

图3:Phi-4-Multimodal-Instruct视觉基准测试

以下视频为Phi-4-Multimodal如何通过视觉输入解决复杂的数学问题,展示了其处理和解决图像中呈现的方程的能力。

Phi-4-mini,数学媲美o1-mini


Phi-4-mini拥有38亿参数,它是一个稠密、仅包含解码器的Transformer模型,具有分组查询注意力、20万词汇量和共享输入输出嵌入,旨在提高速度和效率。

尽管规模小巧,但在推理、数学、编程、指令跟随和函数调用等任务中,它的表现优于更大的模型。

该模型支持长达128K token的序列,提供高精度和可扩展性,使其成为先进AI应用的强大解决方案。

为了了解模型质量,微软将Phi-4-mini与一系列模型在如下图4所示的多个基准上进行比较。

Phi-4-mini语言基准测试

在多种基准测试中,Phi-4-mini展现出了出色的性能。函数调用、指令跟随、长上下文处理和推理等强大能力,使它能够访问外部知识和功能。

通过标准化协议,函数调用使模型能够与结构化编程接口无缝集成,当用户发出请求时,它可以对查询进行推理,识别并调用带有适当参数的相关函数,接收函数输出,并将这些结果融入到响应中,创建了一个基于智能体的可扩展的系统。

定制化与跨平台


Phi-4-mini和Phi-4-multimodal模型的规模较小,这一特点让它们能在计算资源有限的推理环境中使用。

在设备端,通过ONNX Runtime进一步优化后,两款模型可以跨平台使用。它们对计算资源需求低,延迟表现也更理想。

同时,模型拥有更长的上下文窗口,推理和逻辑能力强大,非常适合用于分析任务。较小的模型规模让微调或定制变得更轻松,成本也更低。

下表是Phi-4-multimodal在微调场景中的示例。

小模型,跑起来了


从一开始,微软设计Phi系列模型的初衷,便是加速SLM实际落地应用。

而如今,有了多模态Phi-4-multimodal,以及参数更少、数推更强的Phi-4-mini,又能赋能一大片应用了。

嵌入智能设备


手机制造商可以将Phi-4-multimodal直接集成到手机中,用户可以使用先进功能,如实时语言翻译、增强的照片和视频分析,能理解并回应复杂查询的智能个人助理。

这将在手机上直接提供强大的AI能力,提升用户体验,确保低延迟和高效率。

汽车领域


汽车公司将模型集成到车载辅助系统中,车辆可以理解并回应语音指令、识别驾驶员手势,以及分析来自摄像头的视觉输入。

它可以通过面部识别检测驾驶员的疲劳状态并提供实时警报,从而提高驾驶安全性。

此外,它还能提供无缝的导航辅助、解读路标并提供情境信息,在联网及离线状态下,都能创造更直观、更安全的驾驶体验。

金融服务


金融服务公司集成Phi-4-mini模型,以实现复杂金融计算的自动化、生成详细报告,并翻译成多种语言。

例如,该模型可以通过执行风险评估、投资组合管理和财务预测所需的复杂数学计算,为分析师提供帮助。

此外,它还能将财务报表、监管文件和客户沟通内容翻译成多种语言,有助于改善全球客户关系。

以下视频为Phi-4-mini作为智能体的功能,展示了其在复杂场景中的推理和任务执行能力。

微软19年老将,LoRA核心缔造者带队


作为微软副总裁和GenAI团队负责人,19年老将Weizhu Chen的研究为AI领域带来了多项突破性贡献,包括LoRA、DeBERTa、Phi和Rho-1等技术。

他开创的LoRA技术革新了大语言模型的应用方式,使其更加高效、经济且易于部署,不仅为众多微软产品提供了强大支持,还对整个行业产生了深远影响。

在微软,他的工作让公司能够为特定产品场景训练专业模型,尤其专注于OpenAI模型的应用。并且,还为Azure AI、GitHub、Office、Biz Apps、MAI、DevDiv和Security等多个产品部门创造了显著的业务价值。

比如在2022年共同推出的GitHub Copilot,就一举成为了微软首个极为成功的Copilot产品。

同时,他还将BerryRL流程整合到微软产品中的工作,显著提升了Codex-V2和SWE-Agent等多个应用的模型训练效率和质量。

在此之前,他在香港科技大学获得计算机科学博士学位。

参考资料:

https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/

图片

OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  •        在“软件定义汽车”的时代浪潮下,车载软件的重要性日益凸显,软件在整车成本中的比重逐步攀升,已成为汽车智能化、网联化、电动化发展的核心驱动力。车载软件的质量直接关系到车辆的安全性、可靠性以及用户体验,因此,构建一套科学、严谨、高效的车载软件研发流程,确保软件质量的稳定性和可控性,已成为行业共识和迫切需求。       作为汽车电子系统领域的杰出企业,经纬恒润深刻理解车载软件研发的复杂性和挑战性,致力于为O
    经纬恒润 2025-03-31 16:48 82浏览
  • 职场之路并非一帆风顺,从初入职场的新人成长为团队中不可或缺的骨干,背后需要经历一系列内在的蜕变。许多人误以为只需努力工作便能顺利晋升,其实核心在于思维方式的更新。走出舒适区、打破旧有框架,正是让自己与众不同的重要法宝。在这条道路上,你不只需要扎实的技能,更需要敏锐的观察力、不断自省的精神和前瞻的格局。今天,就来聊聊那改变命运的三大思维转变,让你在职场上稳步前行。工作初期,总会遇到各式各样的难题。最初,我们习惯于围绕手头任务来制定计划,专注于眼前的目标。然而,职场的竞争从来不是单打独斗,而是团队协
    优思学院 2025-04-01 17:29 103浏览
  • 在智能交互设备快速发展的今天,语音芯片作为人机交互的核心组件,其性能直接影响用户体验与产品竞争力。WT588F02B-8S语音芯片,凭借其静态功耗<5μA的卓越低功耗特性,成为物联网、智能家居、工业自动化等领域的理想选择,为设备赋予“听得懂、说得清”的智能化能力。一、核心优势:低功耗与高性能的完美结合超低待机功耗WT588F02B-8S在休眠模式下待机电流仅为5μA以下,显著延长了电池供电设备的续航能力。例如,在电子锁、气体检测仪等需长期待机的场景中,用户无需频繁更换电池,降低了维护成本。灵活的
    广州唯创电子 2025-04-02 08:34 68浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 110浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 155浏览
  • 文/郭楚妤编辑/cc孙聪颖‍不久前,中国发展高层论坛 2025 年年会(CDF)刚刚落下帷幕。本次年会围绕 “全面释放发展动能,共促全球经济稳定增长” 这一主题,吸引了全球各界目光,众多重磅嘉宾的出席与发言成为舆论焦点。其中,韩国三星集团会长李在镕时隔两年的访华之行,更是引发广泛热议。一直以来,李在镕给外界的印象是不苟言笑。然而,在论坛开幕前一天,李在镕却意外打破固有形象。3 月 22 日,李在镕与高通公司总裁安蒙一同现身北京小米汽车工厂。小米方面极为重视此次会面,CEO 雷军亲自接待,小米副董
    华尔街科技眼 2025-04-01 19:39 99浏览
  • 文/Leon编辑/cc孙聪颖‍步入 2025 年,国家进一步加大促消费、扩内需的政策力度,家电国补政策将持续贯穿全年。这一利好举措,为行业发展注入强劲的增长动力。(详情见:2025:消费提振要靠国补还是“看不见的手”?)但与此同时,也对家电企业在战略规划、产品打造以及市场营销等多个维度,提出了更为严苛的要求。在刚刚落幕的中国家电及消费电子博览会(AWE)上,家电行业的竞争呈现出胶着的态势,各大品牌为在激烈的市场竞争中脱颖而出,纷纷加大产品研发投入,积极推出新产品,试图提升产品附加值与市场竞争力。
    华尔街科技眼 2025-04-01 19:49 107浏览
  • 升职这件事,说到底不是单纯靠“干得多”或者“喊得响”。你可能也看过不少人,能力一般,甚至没你努力,却升得飞快;而你,日复一日地拼命干活,升职这两个字却始终离你有点远。这种“不公平”的感觉,其实在很多职场人心里都曾经出现过。但你有没有想过,问题可能就藏在一些你“没当回事”的小细节里?今天,我们就来聊聊你升职总是比别人慢,可能是因为这三个被你忽略的小细节。第一:你做得多,但说得少你可能是那种“默默付出型”的员工。项目来了接着干,困难来了顶上去,别人不愿意做的事情你都做了。但问题是,这些事情你做了,却
    优思学院 2025-03-31 14:58 101浏览
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 111浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 135浏览
  • 北京贞光科技有限公司作为紫光同芯产品的官方代理商,为客户提供车规安全芯片的硬件、软件SDK销售及专业技术服务,并且可以安排技术人员现场支持客户的选型和定制需求。在全球汽车电子市场竞争日益激烈的背景下,中国芯片厂商正通过与国际领先企业的深度合作,加速融入全球技术生态体系。近日,紫光同芯与德国HighTec达成的战略合作标志着国产高端车规芯片在国际化道路上迈出了关键一步,为中国汽车电子产业的发展注入了新的活力。全栈技术融合:打造国际化开发平台紫光同芯与HighTec共同宣布,HighTec汽车级编译
    贞光科技 2025-03-31 14:44 121浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 147浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦