OpenAI从12月5日连续12个工作日每天公布一个新应用或功能。本文来自“人工智能专题:OpenAI发布会梳理(12个应用&功能)”。包括 1)发布完整版o1;2)发布强化微调技术;3)发布视频大模型Sora;4)发布协作平台Canvas;5)发布ChatGPT Apple Intelligence;6)发布高级语音模式;7)发布Projects in ChatGPT;8)发布ChatGPT搜索;9)发布o1 API;10)发布通话访问模式;11)发布全新桌面应用;12)发布新一代推理模型o3 & o3 mini。「重磅合集」本星球合集资源链接,进入链接检索内容,根据提示均可下载:3、《14份半导体“AI的iPhone时刻”系列合集》5、《800+份重磅ChatGPT专业报告》
6、《92份GPU技术及白皮书汇总》
- 12天的发布会中,OpenAI推出了三款基础模型,分别是增强的ChatGPT o1模型、Sora视频生成模型、o3模型,新的模型在数学和科学领域均有着卓越表现,同时也意味着openai在推理能力方面迈出了重要一步。
- o3模型的发布,更是标志着AI在编程、科学推理等领域的巨大进步。o3模型接近通用人工智能(AGI)的标准,为复杂决策和高端问题解决提供了新的技术基础。
- Sora的发布将极大降低内容创作的成本和时间。为营销、培训、市场等各领域提供AI生成的高质量视频,有望成为企业未来内容创作的新标准。
- 用户可以根据极少量的数据,训练特定领域的专家模型。这意味着企业构建定制化的AI模型,不再需要大量的特定数据集标注。
- 定制化能力:相较于通用AI,强化微调技术为企业提供了更灵活的定制化路径。企业可以通过这一技术打造专属的AI助手,在提高生产效率的同时,提供更具个性化的服务,从而有效地提升用户体验。
- 例如,个性化推荐、AI诊疗系统、AI审查工具等特定场景均都可以通过这一技术快速部署。
发布了集智能写作&代码协作于一身的ai工作台、新的桌面应用、高级语音模式、通话访问模式等多款ai agent产品,标志着ChatGPT从简单的会话助手向更强大的代理工具的转变,从而可以代表客户执行更多任务,为用户带来全新的便捷体验。- 在今年9月份,OpenAI发布o1-preview,对模型的技术思路进行了改进:将更多算力运用于推理侧,o1是使用大规模强化学习训练并使用思维链进行推理的系列模型。
- 今年12月,OpenAI正式发布了o1完整版,o1完整版在数学、编程、博士阶段科学问题(困难问题)领域的性能远超GPT4o,在科学问题领域
- 超越人类专家,并在数学、编程领域的性能较o1-preview有了大幅提升。
- 相较于o1-preview,OpenAI对o1进行了使用体验方面的改进:o1目前对于简单问题能够回答更加迅速,OpenAI测试目前o1较o1-preview重
- 目前o1已面向所有Plus订阅用户推出,用于替代o1-preview,并将上线后续推出的Pro订阅。
强化微调可让开发者使用强化学习针对具体任务对模型进行进一步微调,并根据提供的参考答案对模型的响应进行评分具体来说,强化微调不仅会教模型模仿其输入,更是会让其学会在特定领域以新的方式进行推理。当模型发现问题时,要为它提供思考问题的空间,然后再对模型给出的响应进行打分。之后,利用强化学习的力量,可以强化模型得到正确答案的思维方式并抑制导向错误答案的思维方式。- 快速高效:相比于传统技术,强化微调技术更高效,不需要大规模的数据集支持
- 使用灵活:用户可根据需求即时调整模型,使模型更加符合特定场景需求。
- 应用广泛:强化微调技术可以推动客服、教育、创意、研究等各个领域的应用。
- 在官方演示里,OpenAI设置了一个实验:在给定症状列表的情况下,用模型预测可能导致罕见遗传疾病的基因,并让模型解释为什么选这些基因。实验人员使用三种模型进行对比:o1 mini、o1完整版、o1 mini强化微调版。
- 对于o1 mini强化微调版,实验人员汇集了大约1100个病例报告作为训练和验证的数据集,在使用训练数据集对模型进行训练后,上传验证数据集对模型推理能力进行反复测试和调整,同时保证验证数据集和训练数据集之间的正确基因没有重叠,以防模型作弊。评估结果时,实验人员设置了三项指标:1)模型一次答对的概率;2)模型前五次预测中有正确答案的概率;3)模型预测中有正确答案的概率。
- 结果显示,经过强化微调的o1 mini在一次答对的准确率上跃升180%达到了31%,各方面全面超越了o1。强化微调技术将使开发者能够通过更快、成本更低的o1 mini模型获得超越o1的专业性能,将极大促进AI在各领域的应用。
- 文本/图像生成视频:Sora用户可以使用文本、图像来提示Sora生成相关视频
- 时间线编辑:全新推出的故事板工具让用户可以精准地指定每个帧的输入和生成视频的内容,并轻松进行视频剪辑,用户指令越少,Sora会尝试填充更多细节,用户指令越详细,Sora会尝试遵循要求方向生成视频。用户可在Sora中保存自己喜欢的风格,并在后续视频生成任务中重复调用。
- 高分辨率、多种格式支持:Sora可以生成480p-1080p分辨率、5-20秒、宽屏、竖屏或方形的视频。并且用户可以利用资源进行扩展、remix(用户只需描述对视频的更改,Sora将自行完成)和融合。对于同一指示,Sora可生成多个不同视频方向的变体,供用户选择。
- 1)Remix:使用Remix替换、删除或重新构想视频中的元素;
- 2)Re-cut:找到并提取最佳帧或视频段落,然后向任一方向延伸它们以完成特定场景,例如可对之前生成的视频进行裁剪,要求Sora生成全新开头或结尾;
- 3)Loop:使用Loop剪辑并创建无限重复的视频,例如:用户喜欢灯塔视频,可使用Loop工具,Sora将自动生成内容将重复视频的开头和结尾连接,生成可重复视频;
- 4)Blend:将两个视频合并为一个视频,给Sora两个视频场景,Sora会将其中元素合并生成全新视频,用户可用指令提示Sora两个视频的合并方向;
- 5)Style presets:使用Presets创建和分享自己的视频风格。
- Canvas全面开放,已被整合进ChatGPT中;
- 提升了代码功能,用户可以直接在Canvas上运行Python代码,并可直观看到代码结果输出;
- 用户编辑文字:在使用Canvas工具后,交互页面将被分为两部分,左侧为与模型的对话,右侧为用户可直接编辑的文档,用户可直接在Canvas工具中删除、添加、修改ChatGPT回复的内容,以及进行加粗等格式调整。不论是写信、写公文还是论文,这种新生成模式都可以大幅提升效率。
- 同时OpenAI在Canvas工具右下角集成了部分快捷工具,用户只需点击即可实现包括询问模型反馈(Suggest edits)、文档长度调整(Adjustthe length)、语言风格转化(Reading level)、文档润色(Add final polish)、添加表情(Add emojis)这些用户在处理文档时的常用功能。
- 审稿:很多人使用ChatGPT帮助写作,但以前一问一答的形式非常繁琐,现在用户只需要把文章复制粘贴到ChatGPT的文本框中,通过文本入让其给出修改建议,大模型给出的建议会以逐条批注的形式出现。用户可在页面中对应位置看到ChatGPT给出的修改建议,并决定是否根据批注进行润色,之后关闭建议,或者直接选择Apply,让ChatGPT自行对内容进行修改。这使用户可以更直观的使用模型帮助自己审阅文章,并给出建议。
DAY5:Chatgpt进一步集成到Apple生态系统ØDay5,苹果公司发布了其iPhone、iPad和Mac软件的更新(iOS和iPadOS 18.2),将ChatGPT进一步嵌入苹果系统当中,此次更新包括在Siri、写作工具和视觉智能中与ChatGPT的集成。Ø 据彭博社消息,ChatGPT在回答问题时的准确率比Siri高出25%,且能回答30%更多的问题,苹果选择与OpenAI合作,将ChatGPT整合进iOS、iPadOS和macOS系统将极大提升其智能体验。Ø 目前,在iPhone、Mac、iPad等设备中,新版的苹果智能已经包含ChatGPT拓展功能,用户可在设置中自行选择是否调用ChatGPT。- 增强版高级语言模式具备屏幕共享和视觉功能,ChatGPT可以协助理解手机摄像头以及屏幕上所查看的内容。这些功能在高级语音模式已有的基础上进一步增强,目前ChatGPT支持像人类的自然对话对话,同时对话可以被中断,具有多轮交互,并理解非线性的思维过程。
- 实时视频通话:用户现在可以使用视频与ChatGPT进行交流,这使得沟通更加直观和生动。在官方展示案例中,OpenAI的工作人员通过ChatGPT的视频功能现场获取了如何制作一杯咖啡的指引。当演示者按照步骤操作时,ChatGPT会同时口头提供见解和指导。
- 实时屏幕共享:用户可以将自己的屏幕内容分享给ChatGPT,以获取ChatGPT提供的技术支持或协助处理屏幕内容。在官方演示中,OpenAI的工作人员通过与ChatGPT共享屏幕,获得了关于如何回复其消息的建议。
- Projects in ChatGPT:可以将ChatGPT的各种功能整合至一处,便于用户创建并管理各类项目,不仅支持Canvas界面,还能通过ChatGPT Search轻松接入互联网资源。
- 分项目管理ChatGPT:Projects赋予用户将聊天与数据分组的能力,从而使用户能够依据自身需求更加便捷地定制ChatGPT。在创建Projects的过程中,用户可以在界面内设定标题、自定义文件夹的颜色、上传与项目相关的文件,并编写说明来指导ChatGPT如何最高效地协助用户完成项目。在项目内部,用户可以即刻开启聊天,并通过侧边栏轻松地将过往的聊天记录添加到项目中,同样支持利用上下文信息来回答问题。聊天内容能够保存在项目中,便于支持用户稍后继续对话,并清楚地知道在哪里查找所需内容。
- 全方位体验升级:用户现在可以直接访问嵌入式YouTube视频、图片、电影资源,还能便捷地使用商业地图和餐厅导航。在官方演示中,演示者只需与ChatGPT自然对话,ChatGPT便可自行判断是否需要调用ChatGPT search,同时,用户也可以选择开启ChatGPT search功能。
- 移动设备的优化体验:针对移动设备,OpenAI根据用户反馈优化了聊天搜索的体验。在官方演示中,演示者搜索了Mission附近的墨西哥餐厅,ChatGPT search可自行进行筛选,并展示了路线、网站、电话和营业时间等详细信息。用户可进一步提问哪些餐厅支持室外用餐,ChatGPTsearch可自行进行下一步筛选,并列示符合要求的选项,用户可点击商家地址,即可调用苹果地图规划路线。
- 在Advance Voice模式中集成:可以在高级语音模式中使用搜索,通过语音命令访问最新的网络信息,增强了ChatGPT的交互性和便利性。在官方演示中,演示者通过语音向ChatGPT提问在12月23日苏黎世有什么活动,ChatGPT可在搜索后语音进行回复,并支持用户对感兴趣的活动进一步提问,如举办时间、地点、活动举办当天的天气等。
- Function calling:允许开发者将外部API和数据库连接到o1模型;
- Structured Outputs:确保模型输出遵循开发者定义的JSON模式,使解析和使用模型输出更加容易;
- Developer messages:为模型指定指令,例如定义语气、风格及其他行为;
- Vision capabilities:支持对图像进行推理,解锁科学、制造或编码等领域中更多依赖视觉输入的应用;
- Lower latency:o1在每个请求中平均使用比o1-preview少用60%的推理tokens;
- Reasoning_effort:一个全新参数,允许开发者控制模型在回答前思考的时间长度。
- 现场展示了对o1 API调用的测试结果,o1在函数调用、内部结构化输出、数学、编程等领域均达到了目前所有模型的最高准确度。
- 在数学领域,OpenAI测试了经过自定义输出结果的o1模型(o1 with Structured Outputs),结果显示其仍能保持极高的准确度,因此开发者对模型进行自定义调整后,模型仍能够保持其性能。
- ChatGPT通话开放:目前美国用户可通过电话与ChatGPT沟通,具体号码为:1-800-242-8478,用户可将其添加为手机联系人,通话会被审查以确保安全。在官方演示中,演示者通过直接拨入电话的方式接入ChatGPT,并提问在旧金山的280号洲际公路上看到的圆顶房子是什么,ChatGPT准确回复房子的名字,并进行了简短介绍,同时支持用户对问题进行进一步沟通。用户可以通过任何设备拨号连接ChatGPT,包括非智能手机、固定电话等,这意味着老年人也可以通过其老年机接入ChatGPT,并获得相应回复。
- WhatsApp聊天:全球范围内,用户可在WhatsApp上与ChatGPT聊天,用户可以像与联系人中的任何人一样,通过文本输入问题,即可获得基于4o-mini模型生成的回复。在官方演示中,演示者通过WhatsApp询问ChatGPT意面香蒜酱的制作方法,ChatGPT可生成详细的制作方法,包括原材料、制作步骤等。同时,ChatGPT能根据用户的不同要求(如素食、特定饮食偏好等)更新食谱,并回复相应配菜建议。
MacOS桌面应用更新:轻量级且资源占用少,拥有单独窗口,应用时无需在不同的应用程序、窗口之间切换。用户可通过快捷键快速调用ChatGPT,同时在对话窗口下方,用户可点击使用应用程序的选项,ChatGPT可自动提取已完成的工作进度,用户无需上传任何信息即可与ChatGPT进行交互。- 编程能力:o3在编程方面相较o1大幅提升。在SWE-bench Verified基准测试中,o3的准确率达到了71.7%,比前辈o1高出20%以上。这意味着,o3在编写高质量代码方面,已经超过了大多数软件工程师。
- 数学能力:在AIEM 2024,o3几乎拿到了满分,这是AI在AIEM数学竞赛中取得的最好成绩。此外,在GPQA Diamond博士级科学考试中,o3的准确率达到了87.7%,比o1高出近10%。这表明,o3在处理复杂数学问题时,已经达到了顶尖水平。
o3在ARC-AGI基准测试中的表现尤为突出,达到了87.5%的准确率,远超人类的85%阈值。ARC-AGI基准测试旨在评估AI系统的抽象和推理能力,要求AI识别模式并解决新问题。o3实现了AI领域第一次超越人类的成绩,完成了里程碑式的突破。- o3 Mini 是 o3 系列中的高效推理模型,适用于任何需要数学和编码能力的人。由于成本低,o3 Mini 可能会在全球范围内开放使用。o3 Mini支持低中高三种不同的推理时间选项,可以根据自己的使用情况自由调整模型的推理时间。
- 编程能力:支持自适应推理时间,低中位数推理时间下代码性能优于 o1 Mini,在速度和成本方面出色。
- 数学能力:在 AIME 2024测试中,低推理选项与 o1 Mini 和 o3 Mini 性能相当,中位数推理时间性能更好,高推理可进一步提升;延迟大幅减少,支持函数调用等功能,性能优于多数模型。
半导体行业系列专题:晶圆代工,特色工艺蓬勃发展,自主可控成果显著人工智能行业AI硬件全景洞察报告:下一波AI创新机遇在物理空间(2024)1、豆包MarsCode落地编程助手场景的探索与实战
2、多模态LLM在云音乐推荐场景的落地应用
3、腾讯游戏知几语音合成大模型推理实践
4、多模态大语言模型领域进展分享1、RAG 2.0引擎的设计挑战和实现
2、GraphRAG进展分享
3、基于大模型的生成式检索
4、增强AI能力的Agent实践RAG与Tool Use的协同效应
5、RAG在办公领域中的探索与实践
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。