谷歌(Google) 发布 Gemini 原生多模态大模型正面对决GPT-4

12 月 6 日，谷歌(Google) CEO 桑达尔・皮查伊官宣 Gemini 1.0 版正式上线。这次发布的 Gemini 大模型是原生多模态大模型，是谷歌大模型新时代的第一步，它包括三种量级：能力最强的 Gemini Ultra，适用于多任务的 Gemini Pro 以及适用于特定任务和端侧的 Gemini Nano。

现在，谷歌的类 ChatGPT 应用 Bard 已经升级到了 Gemini Pro 版本，实现了更为高级的推理、规划、理解等能力，同时继续保持免费。谷歌预计在明年初将推出「Bard Advanced」，其将使用 Gemini Ultra，这是 Bard 问世以来最大的更新。

自 ChatGPT 发布以来，我们一直对谷歌声称的竞品 Gemini 模型的能力非常好奇，这款大模型早在今年 3 月就有了风声，5 月的 I/O 大会上进入「即将推出」的状态。

随着知情人士不断透露新信息，我们能了解到：据说 Gemini 有万亿参数，训练动用的算力是 GPT-4 的五倍。但 Gemini 的正式发布却似乎因为各种原因而屡遭推迟。

为了与 OpenAI 和微软展开竞争，谷歌果断从 PaLM 2 切换到了 Gemini 上，甚至在今年 4 月份直接把谷歌大脑（Google Brain）和 DeepMind 合并在了一起，Gemini 就由新组成的 Google DeepMind 汇合两个实验室的力量进行攻关。

那么，Gemini 真的能够给我们带来惊喜吗？除了在各种 Benchmark 上拿到最优成绩，甚至超越人类以外，有趣的是，在新闻发布会上，面对记者有关「Gemini 相比以前的大模型有哪些新能力」的提问，Google DeepMind 产品副总裁 Eli Collins 回答说：「我怀疑有」，表示谷歌仍然在努力了解 Gemini Ultra 的全部能力。

Hassabis 表示长久以来，谷歌一直想要建立新一代的 AI 大模型。在他看来，AI 带给人们的不再只是智能软件，而是更有用、更直观的专家助手或助理。今天，谷歌大模型 Gemini 终于亮相了，成为其有史以来打造的最强大、最通用的模型。Gemini 是谷歌各个团队大规模合作的成果，包括谷歌研究院的研究者。特别值得关注的是，Gemini 是一个多模态大模型，意味着它可以泛化并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

谷歌表示，Gemini 还是他们迄今为止最灵活的模型，能够高效地运行在数据中心和移动设备等多类型平台上。Gemini 提供的 SOTA 能力将显著增强开发人员和企业客户构建和扩展 AI 的方式。

目前，Gemini 1.0 提供了三个不同的尺寸版本，分别如下：

1、Gemini Ultra：规模最大、能力最强，用于处理高度复杂的任务；

2、Gemini Pro：在各种任务上扩展的最佳模型；

3、Gemini Nano：用于端侧（on-device）任务的最高效模型。

谷歌对 Gemini 模型进行了严格的测试，并评估了它们在各种任务中的表现。从自然图像、音频和视频理解，到数学推理等任务，Gemini Ultra 在大型语言模型研发被广泛使用的 32 个学术基准测试集中，在其中 30 个测试集的性能超过当前 SOTA 结果。

另外，Gemini Ultra 在 MMLU（大规模多任务语言理解数据集）中的得分率高达 90.0%，首次超越了人类专家。MMLU 数据集包含数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试大模型的知识储备和解决问题能力。

针对 MMLU 测试集的新方法使得 Gemini 能够在回答难题之前利用其推理能力进行更仔细的思考，相比仅仅根据问题的第一印象作答，Gemini 的表现有显著改进。

谷歌称，Gemini是一种“原生多模态”AI模型。这意味着它从一开始就经过预先训练，可以处理用户基于文本和图像的提示词任务，支持文本和图像的服务。比如家长可以通过上传数学问题的图像，以及在工作表里尝试解决问题的照片，帮助孩子做家庭作业。Gemini还能阅读答案，理解为何是对的、为何是错的，并解释需要进一步说明的概念。