电子工程专辑讯 苹果公司于2024年10月13日发布了最新版本的多模态AI大模型MM1.5,这一升级版在前代MM1的基础上进行了显著改进。
多模态AI是指能够处理和理解多种类型数据(如文本、图像、音频等)的AI技术。据悉,MM1.5模型拥有300亿参数规模,能够处理图像识别和自然语言推理任务。该模型继续遵循数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响。
MM1.5模型不仅提升了OCR(光学字符识别)能力,支持任意图像长宽比和高达4M像素的分辨率,还擅长理解富含文本的图像。此外,通过额外的高质量多图像数据进行监督微调(SFT),进一步提高了模型的上下文学习和开箱即用的能力。这一版本还增强了对文本密集型图像的理解、视觉指代和定位以及多图像推理的能力。
苹果公司在MM1.5模型中改进了数据混合策略,显著提升了模型在多文本图像处理方面的表现。该模型提供了从10亿到300亿多种参数规模,能够应对各种复杂任务。相关模型文档已在Hugging Face上发布,供研究人员和开发者参考。
苹果的AI战略包括对多模态大模型MM1的开发。在人工智能领域,苹果公司的发展历程可以分为几个重要阶段,从早期的硬件布局到后来的软件和生态系统整合,再到最近推出的Apple Intelligence系统,从封闭到开放、从硬件到软件的转变。
苹果公司正在加大对AI领域的投入,特别是在生成式AI的应用上。例如,苹果计划每年投资10亿美元,将生成式AI应用于iOS、Siri、Apple Music和Xcode等一系列产品和服务中。2024年的全球开发者大会(WWDC)上,苹果推出了名为Apple Intelligence的新个人智能系统。该系统集成了生成式大模型,并深度整合到iOS、iPadOS、macOS等操作系统中,未来还将拓展到watchOS、tvOS以及visionOS。Apple Intelligence提升了设备端的AI能力,还通过端云结合架构优化了数据处理和用户体验。
在硬件方面,苹果专注于AI芯片与AI硬件创新。苹果公司于2023年12月发布了新的机器学习框架MLX,这是一个专为Apple Silicon芯片设计的开源框架,旨在优化在苹果芯片上的机器学习模型训练和部署。同时,苹果也在自主研发AI服务器,计划在未来三年内生产7万至8万台,大部分将使用Nvidia的芯片。
在软件层面,苹果正在重新设计其Siri数字助手,以更智能的方式提供查询服务,并将AI聊天机器人融入其软件生态。此外,苹果还与OpenAI合作,重点关注其自研的Ajax大模型的进展。
AI布局上,苹果公司除了自研还有收购,苹果公司在今年年初就收购了DarwinAI,以组建其人工智能团队。据市场调研,从2017年至2023年,苹果共收购了32家AI初创公司,这一数字超过了谷歌、Meta和微软。这些收购包括专注于语音识别、图像识别和面部表情识别的公司。
苹果在AI领域的战略调整体现在多个方面,公司放弃了持续十年的电动汽车项目“Titan计划”,并将资源转向生成式AI项目。