谷歌发布旗舰推理模型：单次可处理百万token

导读：

巴塞罗那近期战绩糟糕球队队长之一拉菲尼亚在社交媒体上发文鼓励了球队巴萨最近在西甲赛场战绩糟糕主场不敌马德里竞技后巴萨在西甲积分榜上已经滑落到了第三名的位置在多赛一场的情况下仍落...

巴塞罗那近期战绩糟糕，球队队长之一拉菲尼亚在社交媒体上发文鼓励了球队。巴萨最近在西甲赛场战绩糟糕，主场不敌马德里竞技后，巴萨在西甲积分榜上已经滑落到了第三名的位置，在多赛一场的情况下仍落后于马竞和皇马。

3月26日消息，美国时间周二，谷歌发布Gemini 2.5系列人工智能推理模型。该系列模型在回答问题前会“思考”片刻。

作为这一系列模型的首发产品，Gemini 2.5 Pro Expe mental已经率先亮相。这款多模态模型被称为“目前最智能的模型”。这一模型将于周二登陆谷歌开发者 Google AI Studio，同时向每月支付20美元订阅“Gemini Advanced”的用户开放。

谷歌表示，未来所有新推出的人工智能模型都将集成推理能力。

自从OpenAI于2024年9月份发布首个人工智能推理模型o1以来，科技行业纷纷争相开发推理模型，想要匹配或超越o1的性能。目前，Anthropic、DeepSeek（深度求索）、谷歌和xAI等公司均已推出各自的人工智能推理模型，这些模型利用额外算力和时间，在输出之前先进行事实核查和逻辑推演。

推理技术使得人工智能模型在数学与编程任务中实现突破。许多科技界人士认为，推理模型将成为智能体的重要组成部分，使得这些人工智能系统可以无需人工干预自动完成任务，但成本也更高。

谷歌此前也曾尝试开发人工智能推理模型，去年12月份曾发布过具备“思考能力的Gemini，但Gemini 2.5系列模型则是谷歌挑战OpenAI“o”系列模型迄今最重磅尝试。

谷歌声称，Gemini 2.5 Pro在多项基准中都超越了前沿模型以及竞争对手的部分产品，在视觉化网页应用开发和自动化等领域的表现尤为突出。

谷歌称，在名为Aider Polyglot的代码编辑评估中，Gemini 2.5 Pro得分为68.6%，力压OpenAI、Anthropic以及DeepSeek的部分顶尖模型。

但在软件开发能力 SWE-bench Ve fied中，Gemini 2.5 Pro得分只有63.8%，虽然优于OpenAI的o3-mini和DeepSeek R1，但表现仍不敌Anthropic的Claude 3.7 Sonnet，后者得分为70.3%。

在涵盖数学、人文以及自然科学的综合性 “人类终极考试”（Humanity’s Last Exam）中，谷歌表示Gemini 2.5 Pro得分为18.8%，表现优于大多数竞争对手的旗舰级模型。

谷歌表示Gemini 2.5 Pro支持高达100万token的超大上下文窗口，单次可以处理约75万英文单词，远超《指环王》三部曲的总字数。谷歌透露，未来Gemini 2.5 Pro将支持200万的双倍输入长度。

目前，谷歌尚未公布Gemini 2.5 Pro的API定价，但表示将在未来几周内公布。（辰辰）