近日美国科技巨头谷歌宣布推出其认为规模最大、功能最强大的AI智能模型Gemini (双子座)。Gemini 是 Google 最新的大型语言模型,Pichai 在 6 月份的 I/O 开发者大会上首次透露了该模型,现在正在向公众推出。

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)表示,这是谷歌人工智能新时代的开始:双子座时代。 根据 Pichai 和 Google DeepMind 首席执行官 Demis Hassabis 的描述,这是人工智能模型的巨大飞跃,最终将影响几乎所有的 Google 产品。 “此时此刻,最重要的事情之一就是,”皮查伊说,“你可以研究一项基础技术并使其变得更好,然后它会立即应用到我们的产品中。”

An illustration showing Gemini’s ability to take photos, audio, and more.

此次谷歌发布的Gemini模型可实现多模态,性能大幅提升,Gemini是基于Transformer decoder构建的原生的多模态模型,这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术,能够进行更复杂的推理,理解更加细微的信息。它通过阅读、过滤和理解信息,可以从数十万份文件中提取要点。可以预期未来在生物医药领域会有巨大应用潜力。


Gemini模型根据分为Gemini Ultra、Gemini Pro、以及Gemini Nano三个版本,都支持上下文32K理解,其中:


1)Ultra版本是性能最强的版本,在对应的TPU基础设施中能够展现出最高效率,在多项测试中Ultra版本性能超过GPT4V;


2)Pro版本是性价比优化的版本,在推理、多模态等方面也有较强能力,Pro版本具有良好延展性,可以在几周内完成预训练,在多项测试中仅次于GPT4V,强于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型;


3)Nano:是通过对其他模型蒸馏得来的4位模型,有1.8B和3.25B两个版本,分别针对低内存和高内存设备,支持在本地部署。

image.png

Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,支持在云端以及边缘测运行。相关测试数据表面,Gemini Ultra 在 MMLU(大规模多任务语言理解)方面优于人类专家的模型,横向对比来看多个任务性能超过GPT-4。

谷歌目前正在通过多种方式推出该型号:Bard 现在由 Gemini Pro 提供支持,而 Pixel 8 Pro 用户将通过 Gemini Nano 获得一些新功能。Gemini Ultra 将于明年推出。从 12 月 13 日开始,开发者和企业客户将能够通过 Google Generative AI Studio 或 Google Cloud 中的 Vertex AI 访问 Gemini Pro。 Gemini 目前仅提供英语版本,其他语言显然很快就会推出。

和市面上现有大模型相比,Gemini从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。在灵活度上,从数据中心到移动设备上,它都能够运行。

谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯(Demis Hassabis)在发布会上正面谈及GPT-4与Gemini的对比,“我们对系统进行了非常彻底的分析,并进行了基准测试。谷歌运行了32个完善的基准测试来比较这两个模型,从广泛的整体测试(如多任务语言理解基准测试)到比较两个模型生成Python代码的能力。”哈萨比斯略带微笑地表示,“我认为我们在32项基准中的30项中大幅领先。

其中,值得一提的是,在MMLU(大规模多任务语言理解)测试中Gemini Ultra以90.0%的高分首次超过了人类专家。

可以猜测,Gemini应该吸收了过往deepmind的优秀成果。事实上,deepmind在生物医药中屡获突破。因此,可以预见,在生物医药领域,Gemini会有更广泛的应用潜力。

参考资料:

https://www.theverge.com/2023/12/6/23990466/google-gemini-llm-ai-model