谷歌的原生多模态大模型Gemini来了,剑指GPT-4

admin3个月前笔记55

image.png就在刚刚,谷歌扔下“震撼弹”。

北京时间2月21日晚21点,美国科技巨头谷歌(Google)宣布推出全球性能最强大、轻量级的开源模型系列Gemma,分为2B(20亿参数)和7B(70亿)两种尺寸版本,2B版本甚至可直接在笔记本电脑上运行。

谷歌表示,Gemma采用与 Gemini 模型相同的研究和技术,由Google DeepMind 和谷歌其他团队开发,专为负责任的 AI开发而打造。谷歌声称,Gemma 模型18个语言理解、推理、数学等关键基准测试中,有11个测试分数超越了Meta Llama-2等更大参数的开源模型。

平均分数方面,Gemma -7B 的基准测试平均分高达56.4,远超过Llama-13B(52.2)、Mistral-7B(54.0),成为目前全球最强大的开源模型。

image.png请输入图说

谷歌和Alphabet公司CEO 桑达尔·皮查伊(Sundar Pichai)表示,Gemma展示了强大的性能,从今天开始,该模型将在全球范围内提供,并可在笔记本电脑、工作站或谷歌云上运行。

Google DeepMind CEO Demis Hassabis表示,轻量开源的Gemma是同类尺寸中性能最佳的模型。

如今,谷歌不仅将对手瞄向OpenAI,而且打算占据一切,新模型将比扎克伯格的Llama-2“遥遥领先”。

性能超越Llama-2开源模型,谷歌Gemma为何那么强?

自Gemini发布至今,谷歌持续在 AI 方面“狂飙”。

2023年12月,谷歌推出全球最强大、最通用的多模态通用大模型:Gemini,中文称“双子座”,共包括三个不同尺寸版本:Ultra(超大杯)、Pro(大杯)和Nano(中杯),全面内置最新、最强大的自研 AI 超算芯片Cloud TPU v5p。

谷歌表示,在六项基准测试中,Gemini Pro性能表现优于GPT-3.5;而在30项性能基准测试中,Gemini Ultra超越了目前最强模型GPT-4,甚至在数学、物理、法律等57个领域测试中成为全球第一个超越人类专家水平的 AI 模型。

如此强大的 AI 技术,谷歌必然要持续推进。

所以,谷歌不仅统一了 AI 人才和算力资源,而且全力投资Gemini。今年1月,谷歌宣布全球一项大模型基准测试中Gemini超越GPT-4;2月,谷歌宣布对标ChatGPT的 AI 聊天机器人平台Google Bard更名为Gemini,并推出安卓版本的独立App,以及发布史上性能和功能最强大的Gemini Ultra 1.0模型等。

然而,2月中旬Gemini 1.5发布的同时,OpenAI全新视频生成模型Sora突然亮相,一经面世瞬间成为顶流,话题热度只增不减。所有人都在讨论Sora为行业带来的改变,但这让谷歌在 AI 领域的努力一下子“黯然失色”。

仅过了不到半个月,如今,谷歌卷土重来,正式推出全球最强大的开源模型Gemma。

相比ChaGPT和Gemini,Gemma可能更适合较小规模的任务,例如简单的 AI 聊天或摘要。

谷歌表示,Gemma其灵感来自于此前谷歌发布的Gemini大模型,名字在拉丁语中意为“宝石”。

具体来说,谷歌此次主要展示Gemma模型架构、性能表现、自研芯片、训练基础设施、软件工具、碳减排、安全和评估、负责任等多个方面的努力。

其中,模型架构方面,Gemma基于谷歌Gemini模型以及Transformer自注意力机制的深度学习技术研发,Gemma 2B 和 7B 分别针对来自网络文档、数学和代码的 2T 和 6T 规模英文标注数据进行训练。与Gemini 不同,这些模型不是多模式的,也没有针对多语言任务的最先进性能进行训练。

不仅如此,Gemma还使用了改进后的多头注意力、RoPE嵌入、GeGLU激活函数等新的技术,旨在文本领域实现通用能力,同时具备最先进的理解和推理技能。

性能表现方面,根据技术文件,Gemma在MMLU、MBPP等18个基准测试中,有11个测试结果超越了Llama-13B或Mistral-7B等模型。

image.png自研芯片方面,谷歌Gemma使用自研 AI 加速芯片TPUv5e进行训练。其中7B模型在16个Pods上训练,2B模型在2个Pods上训练,每个 Pod 可占用的 256 个芯片更少,v5e 经过优化,可以成为转换器、文本到图像和卷积神经网络 (CNN) 训练、微调和服务的最大价值产品。

而通过TPUv5e,Gemma模型可在文本领域实现强大的通用能力,同时具备最先进的理解和推理技能。

值得一提的是,谷歌今天还宣布与英伟达(NVIDIA)展开合作。这意味着,Gemma不止使用TPUv5e芯片,而且使用NVIDIA GPU 来优化 Gemma 模型。

软件工具层面,谷歌发布了全新 AI 软件工具包,名为Responsible Generative AI Toolkit,从而帮助开发者和研究人员优先构建安全和负责任的 AI 应用。此外,Gemma 提供 Keras 3.0、原生 PyTorch、JAX 和 Hugging Face Transformers 多个框架工具,并支持基于 Google Cloud 的优化,以及在笔记本电脑、台式机、物联网、移动设备和云端等多个跨设备中兼容,从而让Gemma实现推理和微调。

除了上述提及的层面,谷歌还在碳减排、安全和评估、负责任等方面有新的进展。其中,预训练Gemma模型的碳排放量大大减少,约为131000吨二氧化碳;同时Gemma使用过滤后的预训练数据集,以减少不安全内容的风险;以及通过监督式微调和基于人类反馈的强化学习(RLHF)进行微调。

谷歌表示,在人类偏好评估中,Gemma在遵循指令和基本安全协议方面的表现优于Mistral v0.2 7B Instruct模型。

另外,Google DeepMind采取结构化的方法来确保模型的负责任开发和部署,包括评估潜在的社会影响。

谷歌 DeepMind 产品管理总监 Tris Warkentin 表示,由于担心开放模型存在部分风险,该公司“对 Gemma 进行了更广泛的红队(专家、开发者等内部对抗性测试的外部团队)”,从而提前挖掘出了更多 AI 系统存在的缺陷和风险。


相关文章

简单介绍mysql中数据库覆盖导入的几种方式

简单介绍mysql中数据库覆盖导入的几种方式

众所周知,数据库中INSERT INTO语法是append方式的插入,而最近在处理一些客户数据导入场景时,经常遇到需要覆盖式导入的情况常见的覆盖式导入主要有下面两种:1、部分覆盖:新老数据根据关键列值...

简要介绍并发服务器

简要介绍并发服务器

内容该系列教程所用的协议都非常简单,但足以展示并发服务器设计的许多有趣层面。而且这个协议是 有状态的—— 服务器根据客户端发送的数据改变内部状态,然后根据内部状态产生相应的行为。并非所有的协...

ClashX配置V2ray教程

ClashX配置V2ray教程

ClashX介绍Clash 是一个使用 Go 语言编写、基于规则的跨平台代理核心程序。Clash目前有Windows、MacOS、Android等多个平台的GUI程序,支持SS/V2ray/...

Linux 配置 V2ray 记录

Linux 配置 V2ray 记录

v2rayA 功能依赖于 V2Ray 内核,因此需要安装内核安装 V2Ray 内核参考 V2Ray 官方脚本:GitHub - v2fly/fhs-install-v2ray: Bash script...

OpenAI 发布全新实时多模态模型 GPT-4o

OpenAI 发布全新实时多模态模型 GPT-4o

北京时间5月14日凌晨,万众瞩目的 OpenAI 发布会正式召开,发布会全长 26分钟,虽然简短,但内容及其震撼。如果要总结到底讲了什么事情,其实就是三件:发布了全新的实时多模态旗舰模型 Gpt-4o...

神器Nmon

神器Nmon

比如:nmon -f -s 1。nmon CPU and Disk utilization会创建一个日志文件,该日志文件最开头是一些系统的元数据(AAA - BBBV 部分),后面是所监控的系统属性的...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。