MM1.5模型不仅提升了OCR能力,支持任意图像长宽比和高达4M像素的分辨率,还擅长理解富含文本的图像。此外,通过额外的高质量多图像数据进行监督微调,进一步提高了模型的上下文学习和开箱即用的能力......

电子工程专辑讯 苹果公司于2024年10月13日发布了最新版本的多模态AI大模型MM1.5,这一升级版在前代MM1的基础上进行了显著改进。

多模态AI是指能够处理和理解多种类型数据(如文本、图像、音频等)的AI技术。据悉,MM1.5模型拥有300亿参数规模,能够处理图像识别和自然语言推理任务。该模型继续遵循数据驱动的训练原则,重点研究在不同训练周期中混合不同类型数据对模型性能的影响。

MM1.5模型不仅提升了OCR(光学字符识别)能力,支持任意图像长宽比和高达4M像素的分辨率,还擅长理解富含文本的图像。此外,通过额外的高质量多图像数据进行监督微调(SFT),进一步提高了模型的上下文学习和开箱即用的能力。这一版本还增强了对文本密集型图像的理解、视觉指代和定位以及多图像推理的能力。

苹果公司在MM1.5模型中改进了数据混合策略,显著提升了模型在多文本图像处理方面的表现。该模型提供了从10亿到300亿多种参数规模,能够应对各种复杂任务。相关模型文档已在Hugging Face上发布,供研究人员和开发者参考。

苹果的AI战略包括对多模态大模型MM1的开发。在人工智能领域,苹果公司的发展历程可以分为几个重要阶段,从早期的硬件布局到后来的软件和生态系统整合,再到最近推出的Apple Intelligence系统,从封闭到开放、从硬件到软件的转变。

苹果公司正在加大对AI领域的投入,特别是在生成式AI的应用上。例如,苹果计划每年投资10亿美元,将生成式AI应用于iOS、Siri、Apple Music和Xcode等一系列产品和服务中。2024年的全球开发者大会(WWDC)上,苹果推出了名为Apple Intelligence的新个人智能系统。该系统集成了生成式大模型,并深度整合到iOS、iPadOS、macOS等操作系统中,未来还将拓展到watchOS、tvOS以及visionOS。Apple Intelligence提升了设备端的AI能力,还通过端云结合架构优化了数据处理和用户体验。

在硬件方面,苹果专注于AI芯片与AI硬件创新。苹果公司于2023年12月发布了新的机器学习框架MLX,这是一个专为Apple Silicon芯片设计的开源框架,旨在优化在苹果芯片上的机器学习模型训练和部署。同时,苹果也在自主研发AI服务器,计划在未来三年内生产7万至8万台,大部分将使用Nvidia的芯片。

在软件层面,苹果正在重新设计其Siri数字助手,以更智能的方式提供查询服务,并将AI聊天机器人融入其软件生态。此外,苹果还与OpenAI合作,重点关注其自研的Ajax大模型的进展。

AI布局上,苹果公司除了自研还有收购,苹果公司在今年年初就收购了DarwinAI,以组建其人工智能团队。据市场调研,从2017年至2023年,苹果共收购了32家AI初创公司,这一数字超过了谷歌、Meta和微软。这些收购包括专注于语音识别、图像识别和面部表情识别的公司。

苹果在AI领域的战略调整体现在多个方面,公司放弃了持续十年的电动汽车项目“Titan计划”,并将资源转向生成式AI项目。

责编:Amy.wu
阅读全文,请先
您可能感兴趣
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天!还没报名的小伙伴,抓紧报名噢,12月21日不见不散!大会时间与地点时间:2024年12月21日 9:30-1