Anthropic发布新模型领先聊天机器人技术发展

IEEE电气电子工程师学会 2024-06-27 15:59

【应用手册】TI 全新MCU及C29内核的电动汽车应用方案 如何提升高压系统的实时性能?

点击蓝字关注我们

SUBSCRIBE to US

Image: Anthropic

人工智能竞赛仍在快速进行中：Anthropic正在推出其最新型号，称为Claude 3.5 Sonnet，该公司表示，在各种任务中，它可以与OpenAI的GPT-4o或Google的Gemini相媲美。新的模型已经在web和iOS上提供给Claude用户，并且Anthropic也提供给开发人员。

细致来看，Claude 3.5 Sonnet在研究生水平推理 (GPQA)、编码能力 (HumanEval) 、文本推理（DROP）等方面的成绩均好于GPT-4o，但在数学问题解决能力上稍逊于后者。

Claude 3.5 Sonnet强调了自己在创意写作方面的突出表现，公司表示它能够更好理解prompt（指令）之间的细微差别以及有更强的幽默能力。

Image: Anthropic

而作为一款多模态大模型，Claude 3.5 Sonnet与GPT-4o相比，没有将重点放在实时音频交互能力上，而是暂时着重突出了图像处理能力的提升。

Claude 3.5 Sonnet在大多数视觉基准测试中比Claude 3 Opus平均表现高出10%。公司称，Claude 3.5 Sonnet可以更准确地解释图表和图形，在带有扭曲和视觉伪像的这类“不完美”图像中，它也能顺利完成文本转录任务。

Image: Anthropic

除了这个新模型之外，Anthropic此次还推出了一款应用产品Artifacts预览版。这是一个可供用户添加和编辑其模型生成内容的工作空间，例如用其生成的代码、文档、图像、网站设计等内容创建作品。这款产品会在Claude的web客户端设置一个专用窗口，产品形态类似于将大模型接入工作流。Anthropic表示，Artifacts后续还可能会与其他团队合作以接入新功能。

Artifacts实际上似乎是Claude长期愿景的信号。Anthropic长期以来一直表示，它主要专注于业务（即使它雇佣了Instagram联合创始人Mike Krieger等消费类技术人员），并在发布Claude 3.5 Sonnet的新闻稿中表示，它计划将Claude变成一个工具，让公司“将其知识、文档和正在进行的工作安全地集中在一个共享空间”。这听起来更像是一个Notion或Slack，而不是ChatGPT，因为整个系统的中心是Anthropic的模型。

此外，Anthropic透露，公司将在今年晚些时候陆续更新其余两款大模型Claude 3.5 Haiku和Claude 3.5 Opus。