目下十行网

谷歌发布Gemini 3.1 Flash-Lite,主打“快与省”,性能碾压 2.5 Flash

来源:目下十行网-工人日报
2026-04-19 11:55:17

3月4日消息,谷歌今日正式推出Gemini 3.1 Flash-Lite,声称这是Gemini 3系列中速度最快、性价比最高的模型,并表示3.1 Flash-Lite专为开发者的大规模、高吞吐量工作负载而设计,在其价格区间和模型级别中展现了极高的质量。

即日起,3.1 Flash-Lite将通过Google AI Studio中的Gemini接口向开发者开放预览版,并通过Vertex AI面向企业用户推出。

3.1 Flash-Lite每百万输入Token(Input tokens)需0.25美元,每百万输出Token(Output tokens)为1.50美元。根据Artificial Analysis的基准测试,3.1 Flash-Lite在保持同等或更高质量的前提下,性能表现优于2.5 Flash。其首字响应速度(Time to First Answer Token)提升了2.5倍,输出速度也增长了45%。谷歌称,这种低延迟特性是高频工作流的必备条件,使其成为开发者构建响应式实时体验的理想模型。

3.1 Flash-Lite在Arena.ai排行榜上获得了1432分。在推理和多模态理解(Multimodal understanding)的各项基准测试中,它的表现均超越了同级别的其他模型。例如,它在GPQA Diamond测试中取得了86.9%的成绩,在MMMU Pro测试中取得了76.8%的成绩。这一表现甚至超越了前几代体量更大的模型,如2.5 Flash。

除了原生性能外,Gemini 3.1 Flash-Lite在AI Studio和Vertex AI中还标配了“思考等级”功能。这让开发者能够灵活控制模型针对特定任务的“思考”深度,对于管理高频工作负载而言,这一功能至关重要。3.1 Flash-Lite能够处理大规模任务,例如对成本敏感的大批量翻译和内容审核。同时,它也能胜任需要深度推理的复杂工作,例如生成用户界面和仪表板、创建模拟环境以及遵循复杂指令。

谷歌表示,AI Studio和Vertex AI的早期接入开发者,以及拉提图德(Latitude)、卡特维尔(Cartwheel)和威灵(Whering)等公司,已经开始使用3.1 Flash-Lite来解决大规模的复杂问题。早期测试人员强调了3.1 Flash-Lite的效率和推理能力。他们表示,该模型能以大体量模型的精准度处理复杂输入,并能严格遵循指令,保持高度的一致性。(易句)

(本文由AI翻译,网易编辑负责校对)

责任编辑:目下十行网

媒体矩阵


  • 客户端

  • 微信号

  • 微博号

  • 抖音号

客户端

亿万职工的网上家园

马上体验

关于我们|版权声明| 违法和不良信息举报电话:010-84151598 | 网络敲诈和有偿删帖举报电话:010-84151598
Copyright © 2008-2024 by {当前域名}. all rights reserved

扫码关注

目下十行网微信


目下十行网微博


目下十行网抖音


工人日报
客户端
×
分享到微信朋友圈×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。