双子座vs GPT4:谷歌的新人工智能模型真的像它声称的那样好吗?

发布号 17 2025-09-11 15:15:29

双子座vs GPT4:谷歌的新人工智能模型真的像它声称的那样好吗?

人工智能的军备竞赛正如火如荼地进行着,各家公司在发布最新产品时都毫不避讳地打出了一些拳头。在某些情况下,他们甚至脱下了手套。

本周早些时候,谷歌发布了其“最强大”的人工智能模型Gemini,这标志着在与OpenAI的GPT-4和meta的Llama 2争夺人工智能霸主地位的持续竞争中迈出了重要一步。

故事有限公司 继续下面的广告删除广告

Gemini从底层开始构建,拥有“多模态”,允许它同时理解和处理不同类型的数据,包括文本、代码、音频、图像和视频。

AI模型将有三种不同的尺寸:Ultra(用于高度复杂的任务),Pro(用于扩展各种任务)和Nano(设备上的任务)。

这是继搜索巨头DeepMind和谷歌大脑(Google Brain)的人工智能研究部门合并后,谷歌DeepMind稳定的第一个模型。

OpenAI的ChatGPT,由GPT-3.5驱动,在去年年底推出后,在世界范围内引起了轩然大波,并迅速成为城镇的话题。虽然谷歌最初措手不及,但现在有迹象表明,它终于开始动手,准备战斗了。

是的,随着双子星座的发射,它的主张掀起了一些波澜。但它真的像它声称的那么好吗?

谷歌DeepMind表示,在32项标准性能指标中,Gemini在30项上超过了GPT-4,不过需要注意的是,差距很小。

故事有限公司 继续下面的广告删除广告

另请阅读:是什么赋予了ChatGPT和Bard力量?看看法学硕士或大型语言模型

虽然该公司已经成功地向公众展示了“杰森一家”的梦想,但对其准确性的担忧现在正成为人们关注的焦点。

技术报告

谷歌对Gemini和GPT-4进行了几次基准测试。双子座在大规模多任务语言理解(MMLU)测试中取得了令人印象深刻的90%的成绩,超过了人类专家(89.8%),超过了GPT-4(86.4%)。MMLU使用57个科目的组合,如数学、物理、历史、法律、医学和伦理学,以测试世界知识和解决问题的能力。

但是,需要注意的是,Google对这两个模型使用了不同的提示技术。GPT-4的86.4%的得分依赖于行业标准的“5次”提示技术。相比之下,Gemini Ultra的90%的结果是基于一种不同的方法——“32个样本的思维链”。

同样值得注意的是,谷歌使用过时版本的GPT-4进行了这些测试,如上图黄色框中所示。该说明提到他们使用了GPT-4的“以前最先进的”(SOTA)版本。

当使用5发MMLU对两种模型进行评估时,GPT-4的得分为86.4%,而Gemini Ultra的得分为83.7%。在使用10发HellaSwag(一种衡量常识推理的基准)时,GPT-4得分为95.3%,超过了Gemini Ultra(87.8%)和Gemini Pro(84.7%)。

在机器学习的语境中,“镜头”一词指的是在训练过程中提供的示例或实例的数量。例如,在few-shot学习中,模型在每个类的少量示例上进行训练。这个数字,例如5次射击,将表明该模型只使用每个类的5个实例进行训练。

至于思维链(CoT),它指的是AI模型在做出决定或输出时所采取的逻辑进程或步骤序列。简单地说,CoT提示就是在生成答案之前,引导模型一步一步地思考。

此外,Google在其他基准测试中使用了不同的提示技术,比如用于小学数学推理的GSM8K(小学数学8K),用于阅读理解和算术的DROp,以及用于Python编码任务的Humaneval。

谷歌在其技术报告中表示,Gemini Ultra模型通过使用思维链提示方法实现了最高的准确性。这种方法包括使用多个样本(k个样本)生成响应序列(思维链),例如8或32个。该模型考虑了模型的不确定性,并检查了这些样本之间的一致性。如果达到超过预设阈值的共识,它将选择该答案。否则,它会在没有思维链的情况下,依靠基于最大似然选择的贪婪样本。

另请阅读:ChatGPT满一岁:快速增长和争议的一年

贪心样本指的是在序列生成的每一步选择最可能或最可能的下一个单词或标记。

“什么鬼?”

在Gemini发布当天,谷歌还发布了一段名为“亲身体验Gemini:探索多模式人工智能交互”的视频。该视频强调了多模式系统在处理各种输入方面的能力,在互联网上引起了轰动。

然而,当报告显示出差异,表明演示视频歪曲了人工智能模型的实际性能时,这种兴奋很快就减弱了。

在为彭博社撰写的一篇评论文章中,专栏作家帕米·奥尔森指出:“实际上,这次演示也不是实时的,也不是语音的。”她还声称,谷歌承认编辑了这段视频。

换句话说,演示中的声音正在读出他们向Gemini发出的人工提示,并向他们展示静态图像。奥尔森在专栏文章中写道:“这与谷歌似乎暗示的完全不同:一个人可以与双子座进行流畅的语音对话,因为它可以实时观察并响应周围的世界。”

可以肯定的是,视频的描述中说:“为了这个演示的目的,延迟已经减少,Gemini输出已经缩短。”

谷歌DeepMind研究副总裁兼Gemini联合负责人Oriol Vinyals在X上的一篇文章中表示,他很高兴看到人们对“亲身体验Gemini”视频的兴趣。

视频中的所有用户提示和输出都是真实的,为简洁而缩短。该视频展示了使用Gemini构建的多模式用户体验。我们制作这款游戏是为了激励开发者。”

邀请你的朋友和家人注册MC Tech 3,我们的每日通讯,打破了当天最大的技术和创业故事

DAILY-EVENING

订阅你的收件箱里最热门的科技和创业故事,以此结束你的一天

DAILY-EVENING

订阅你的收件箱里最热门的科技和创业故事,以此结束你的一天

上一篇:彩票中奖者以为她从NC彩票中得到了20美元——然后她戴上了眼镜
下一篇:疫情新增一般几点公布的(疫情每日新增什么时候更新)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~