北京时间2025年11月19日,谷歌正式发布其最新旗舰AI模型Gemini 3系列,引发业界广泛关注。《纽约时报》旗下科技播客《Hard Fork》随即推出特别节目,主持人凯文·罗兹(Kevin Roose)与凯西·牛顿(Casey Newton)专访了谷歌DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)以及Gemini团队负责人乔希·伍德沃德(Josh Woodward)。访谈内容涵盖了Gemini 3在多步推理、编码能力、动态交互界面生成等方面的创新,并深入探讨了谷歌在AI技术研发与规模化部署上的战略思路。
谷歌此前经历了Bard的挫折以及Gemini 1.x和2.x的追赶阶段,而Gemini 3的发布被认为标志着公司重新夺回技术和产品领先地位。两位负责人详细介绍了Gemini 3如何在实际应用中快速落地,通过搜索、Gmail、Workspace等产品触达数十亿用户,形成无法轻易复制的竞争壁垒。
在访谈中,哈萨比斯与伍德沃德强调,Gemini 3完全符合此前设定的技术发展轨迹,距离真正的通用人工智能(AGI)仍需5至10年时间以及1至2次关键研究突破。谷歌利用其全栈优势,包括效率、成本控制和分发能力,使得公司在任何市场环境下都具备竞争优势。虽然AI市场部分存在泡沫,但谷歌同时拥有短期变现能力和长期潜在万亿级赛道的保障。
Gemini 3在具体应用上的突破主要体现在三方面。首先是多步推理能力的显著增强,模型可以在复杂逻辑推演中完成10至15步连贯思考,相比前代模型在第5、6步就可能出现错误的情况,可靠性提升明显。其次,Gemini 3能够大规模生成定制化交互界面,将传统的文字回答升级为可操作的用户体验。例如,用户可以通过自然语言请求生成投资组合仪表盘、房产按揭计算器或教育学习页面,模型会直接生成完整的可交互界面。第三,在编码能力方面,尤其是前端与“氛围编码”能力得到了加强,使模型能够根据提示自动生成功能完整且设计美观的界面代码,为未来产品如Google Antigravity提供技术支撑。
Gemini 3的发布不仅提升了基础问答的准确性和信息呈现效果,还使模型能够与用户的其他数据源深度整合,如邮箱、日程表等,从而在起草邮件或处理任务时展现出上下文理解能力和个性化风格调整。这种从“智能助手”向“智能同事”的转变,意味着模型不再仅仅回答问题,而是真正参与用户的工作流程,提高生产力和使用效率。
对于通用人工智能的时间表,哈萨比斯表示,Gemini 3并未改变此前的预判。距离AGI的实现仍需在一致性、推理深度、长期记忆机制以及物理世界建模等方面取得关键突破。当前模型依赖的“系统1思维”侧重快速、直觉式决策,而实现AGI需要开发“系统2思维”,以完成更深思熟虑和分析式的任务。
团队还对AI伴侣概念进行了明确定位,强调Gemini 3是生产力工具而非情感伴侣,核心价值在于帮助用户高效完成日常任务。这一策略既保证了安全性,也保持了谷歌作为信息与工具提供者的核心使命。哈萨比斯进一步指出,谷歌在规模化训练和分发上的优势无法轻易复制,TPU芯片的全栈优化使训练成本和效率显著高于依赖外部GPU的竞争者,这也验证了规模定律在提升模型性能上的持续有效性。
面对AI市场的泡沫争议,哈萨比斯认为部分领域估值确实存在偏离实际的情况,但谷歌同时在短期内具备变现能力,并在长周期中占据万亿级赛道,例如药物发现、材料科学和机器人领域。Gemini 3的发布不仅展示了技术实力,更体现了谷歌在研究领先、产品落地和市场整合上的全方位竞争力。
伍德沃德补充道,Gemini 3的功能在日常生活中同样具有实际应用价值,例如即时编辑照片、生成节日食谱计算器或自动起草专业信件,既能娱乐也能提高效率。这种从娱乐到实用的多样化应用进一步体现了模型的成熟度和广泛适用性。
整体来看,Gemini 3不仅在技术层面实现了多项突破,也在产品落地和规模化部署上展现出谷歌独特的战略优势。随着模型逐步接入谷歌生态数十亿用户,Gemini 3正成为行业标杆,并为未来AGI的实现奠定了坚实基础。