谷歌多模态大模型再更新,推出Gemini 1.5 Pro版本。Gemini系列大模型是谷歌的多模态(multimodality)大模型,能够处理跨越文本、图片、音频、视频、代码等多模态信息。
此前,谷歌推出的Gemini 1.0总共有Nano、Pro、Ultra三个版本。2024年2月15日,谷歌再次更新其Gemini大模型至Gemini 1.5代,并推出Gemini 1.5 Pro版本。
《OpenAI新工具Sora,文字秒生短片》
1、OpenAI推新工具Sora,一句话生成60秒短片 2、OpenAI Sora存缺陷易穿帮,暂未对公众开放使用
OpenAI发布首款文生视频大模型Sora,训练算力需求大幅提升
Gemini 1.5 Pro的性能水平与谷歌至今为止最大的模型Gemini 1.0 Ultra类似。与Gemini 1.0代对比,Gemini 1.5 Pro的性能大大超过了Gemini 1.0 Pro,在绝大多数(27/31)的基准测试(benchmarks)中表现更好;而在与Gemini 1.0 Ultra的对比中,Gemini 1.5 Pro在超过一半的基准测试上表现更好。
Gemini 1.5大模型建立在对sparse稀疏混合专家(mixture-of-expert,MoE)架构及Transformer架构领先的研究上,其训练和服务更为高效。传统的Transformer是一个大型神经网络,而MoE模型则被划分为更小的“专家”神经网络。混合专家模型(MoE)主要由两个关键部分组成:
1)稀疏MoE层:这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”,每个“专家”本身是一个独立的神经网络;
2)门控网络或路由:这个部分用于决定每个token被发送到哪个“专家”。例如,在下图中,“More”这个token被发送到第二个专家,而“Parameters”这个token被发送到第一个专家。这种“术业有专攻”的架构,能够极大的提高模型的效率,让MoE能够在远少于稠密模型所需的计算资源下进行有效的预训练,基于MoE架构的Gemini 1.5在训练和服务上也更为高效。
Gemini 1.5 Pro是中等规模的多模态模型,具有超大容量的上下文窗口。谷歌现在推出的Gemini 1.5 Pro是一种中等规模(mid-size)的多模态模型,引入了在上下文理解方面的突破性实验特征。Gemini 1.5 Pro除了配有标准的128,000token的上下文窗口,少数开发人员和企业客户还可以通过AI Studio和Vertex AI的私人预览版在最多1,000,000个token的上下文窗口中进行尝试和体验。100万个token的上下文窗口容量相当于Gemini 1.5 Pro可以一次性处理1小时视频/11小时音频/超过30,000行代码/超过700,000个单词(word)的信息库。
Gemini 1.5 Pro能够对大量的信息进行复杂推理,可以在给定提示内无缝分析、分类和总结大量内容。
Gemini 1.5 Pro能够更好地理解和推理跨模态,可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。例如,当给定一部44分钟的巴斯特·基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。当给出简单的线条图作为现实生活中物体的参考材料时,Gemini 1.5 Pro可以识别44分钟的巴斯特基顿无声电影中的场景。
Gemini 1.5 Pro能够使用较长的代码块解决相关问题。例如,当给出超过100,000行代码的提示时,它可以更好地推理示例、建议有用的修改并解释代码不同部分的工作原理。