谷歌推出超强多模态AI模型Gemini，人工智能更进一步!

2024-01-10 智慧医疗来源：梅斯医学

近日美国科技巨头谷歌宣布推出其认为规模最大、功能最强大的AI智能模型Gemini (双子座)。Gemini 是 Google 最新的大型语言模型，Pichai 在 6 月份的 I/O 开发者大会上首次透露了该模型，现在正在向公众推出。

谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）表示，这是谷歌人工智能新时代的开始：双子座时代。根据 Pichai 和 Google DeepMind 首席执行官 Demis Hassabis 的描述，这是人工智能模型的巨大飞跃，最终将影响几乎所有的 Google 产品。 “此时此刻，最重要的事情之一就是，”皮查伊说，“你可以研究一项基础技术并使其变得更好，然后它会立即应用到我们的产品中。”

An illustration showing Gemini’s ability to take photos, audio, and more.

此次谷歌发布的Gemini模型可实现多模态，性能大幅提升，Gemini是基于Transformer decoder构建的原生的多模态模型，这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术，能够进行更复杂的推理，理解更加细微的信息。它通过阅读、过滤和理解信息，可以从数十万份文件中提取要点。可以预期未来在生物医药领域会有巨大应用潜力。

Gemini模型根据分为Gemini Ultra、Gemini Pro、以及Gemini Nano三个版本，都支持上下文32K理解，其中：

1）Ultra版本是性能最强的版本，在对应的TPU基础设施中能够展现出最高效率，在多项测试中Ultra版本性能超过GPT4V；

2）Pro版本是性价比优化的版本，在推理、多模态等方面也有较强能力，Pro版本具有良好延展性，可以在几周内完成预训练，在多项测试中仅次于GPT4V，强于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型；

3）Nano：是通过对其他模型蒸馏得来的4位模型，有1.8B和3.25B两个版本，分别针对低内存和高内存设备，支持在本地部署。

Gemini模型作为谷歌以及全球范围内最先发布的多模态模型，支持在云端以及边缘测运行。相关测试数据表面，Gemini Ultra 在 MMLU（大规模多任务语言理解）方面优于人类专家的模型，横向对比来看多个任务性能超过GPT-4。

谷歌目前正在通过多种方式推出该型号：Bard 现在由 Gemini Pro 提供支持，而 Pixel 8 Pro 用户将通过 Gemini Nano 获得一些新功能。Gemini Ultra 将于明年推出。从 12 月 13 日开始，开发者和企业客户将能够通过 Google Generative AI Studio 或 Google Cloud 中的 Vertex AI 访问 Gemini Pro。 Gemini 目前仅提供英语版本，其他语言显然很快就会推出。

和市面上现有大模型相比，Gemini从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。在灵活度上，从数据中心到移动设备上，它都能够运行。

谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯（Demis Hassabis）在发布会上正面谈及GPT-4与Gemini的对比，“我们对系统进行了非常彻底的分析，并进行了基准测试。谷歌运行了32个完善的基准测试来比较这两个模型，从广泛的整体测试（如多任务语言理解基准测试）到比较两个模型生成Python代码的能力。”哈萨比斯略带微笑地表示，“我认为我们在32项基准中的30项中大幅领先。”

其中，值得一提的是，在MMLU（大规模多任务语言理解）测试中Gemini Ultra以90.0%的高分首次超过了人类专家。

可以猜测，Gemini应该吸收了过往deepmind的优秀成果。事实上，deepmind在生物医药中屡获突破。因此，可以预见，在生物医药领域，Gemini会有更广泛的应用潜力。

参考资料：

https://www.theverge.com/2023/12/6/23990466/google-gemini-llm-ai-model