界面新聞?dòng)浾?| 李彪
界面新聞編輯 | 文姝琪
5月20日至21日,搜索巨頭谷歌在加州山景城海岸線圓形劇場(chǎng)舉辦一年一度的Google I/O大會(huì)(開發(fā)者大會(huì))。
自從2024年I/O大會(huì)上,谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)宣布Google進(jìn)入“Gemini時(shí)代”后,AI就成了大會(huì)重頭戲。
今年也不例外,首日的核心就是GeminiAI相關(guān)的新產(chǎn)品升級(jí)。桑達(dá)爾·皮查伊、谷歌Deepmind CEO、2024諾貝爾化學(xué)獎(jiǎng)得主戴密斯·哈薩比斯(Demis Hassabis)等一眾高管登臺(tái)亮相,介紹展示了新的推理AI模型Gemini2.5 Pro、引入Gemi2.5后的Google AI搜索、 Android XR以及Google眼鏡等功能和服務(wù)的重大更新。
升級(jí)版推理模型:“更懂思考的”Gemini2.5 Pro
谷歌在會(huì)上發(fā)布的最重要的AI產(chǎn)品是其Gemi2.5的升級(jí)版模型——Gemini2.5 Pro。
Gemini2.5 Pro是Gemini系列最新的推理旗艦?zāi)P?,?duì)標(biāo)OpenAI o3。相對(duì)于Gemini2.5,Gemini 2.5 Pro在其基礎(chǔ)上進(jìn)一步增強(qiáng)了復(fù)雜任務(wù)處理能力,尤其在代碼生成、邏輯推理和多模態(tài)理解方面表現(xiàn)有了極大提升。
據(jù)Deepmind CEO哈薩比斯介紹,Gemini 2.5 Pro具備深度思考能力,能夠在回答前“思考”多個(gè)假設(shè),進(jìn)行復(fù)雜的邏輯推理和信息分析,并具備“思維鏈”功能,能夠在回答時(shí)展示完整的思考步驟和多種選擇方案。
在評(píng)價(jià)模型能力的LMArena排行榜上,Gemini 2.5 Pro在所有類別(對(duì)話能力、代碼生成、圖文生成以及綜合評(píng)分項(xiàng)目)中都排名第一。
谷歌在現(xiàn)場(chǎng)重點(diǎn)演示了其AI Coding的能力,按照官方定位,相對(duì)于Gemini 2.5,Gemini2.5 Pro是一款“更擅長編程”的模型。
據(jù)現(xiàn)場(chǎng)工作人員介紹,Gemini 2.5Pro特別擅長創(chuàng)建視覺效果豐富的網(wǎng)頁應(yīng)用,包括UI設(shè)計(jì)、響應(yīng)式布局和復(fù)雜交互動(dòng)畫的生成。工作人員現(xiàn)場(chǎng)演示了一項(xiàng)前端網(wǎng)頁編程任務(wù),將幾十張2D圖片改成3D排列,僅通過幾個(gè)簡單的提示詞,模型不到一分鐘時(shí)間就自動(dòng)完成了編碼實(shí)現(xiàn)。
在衡量AI編程能力的排行榜WebDev Arena上,Gemini 2.5Pro居于首位,比其上一個(gè)版本提升了142分,超過了包括Claude 3.7 Sonnet和GPT-4.1 Turbo等競(jìng)爭(zhēng)對(duì)手。
除了編程能力外,多模態(tài)能力也是Gemini一直重點(diǎn)提升的核心。
谷歌公布了Gemini Live API的預(yù)覽版。Live API支持文本轉(zhuǎn)語音、語音轉(zhuǎn)語音,做到以視聽輸入和輸出音頻對(duì)話,早期功能有情感對(duì)話(Affective Dialogue)、主動(dòng)音頻功能(Proactive Audio)。情感對(duì)話能夠檢測(cè)用戶聲音中的情感并作出適當(dāng)回應(yīng)。主動(dòng)音頻功能下模型將忽略背景對(duì)話并知道何時(shí)回應(yīng)。
Live API 支持超過24種語言,并可以在它們之間無縫切換,目前已在 Gemini API 中可用。
在集中體現(xiàn)多模態(tài)能力的“世界模型”上,伴隨Gemini 2.5Pro的升級(jí),谷歌旗下的視頻生成模型、音頻生成模型、圖像生成模型也升級(jí)到了新版本.
新的視頻生成模型Veo3首次實(shí)現(xiàn)了視頻與音頻的原生同步生成。它不僅能生成高質(zhì)量的視頻畫面,還能同步生成包括環(huán)境音效、角色對(duì)話和口型同步的音頻內(nèi)容。
音頻生成模型Lyria 2能夠支持生成高保真度、高質(zhì)量的音樂,適用于品牌配樂、影視音樂和數(shù)字內(nèi)容制作。
還有新的圖像生成模型Imagen 4,生成的圖像更加豐富,色彩更加細(xì)膩,細(xì)節(jié)更加逼真。
基于Gemini 2.5 Pro在深度思考、復(fù)雜任務(wù)上的能力,谷歌還在大會(huì)上宣布將計(jì)劃通用人工智能助手Project Astra 、智能體系統(tǒng)應(yīng)用(AI Agent)Project Mariner。Project Astra目前已經(jīng)具備視頻理解、屏幕共享和記憶等功能;Project Mariner 現(xiàn)在包含一個(gè)Agent智能體系統(tǒng),可以同時(shí)完成多達(dá)十項(xiàng)不同的任務(wù),如查找信息、訂票、購物,相應(yīng)的功能已經(jīng)被整合進(jìn)入Gemeni API中。

“Gemini所有應(yīng)用目前月活躍用戶已超過4億。尤其是2.5系列模型的使用增長強(qiáng)勁和用戶參與度很高?!惫雀鐲EO皮查伊在演講中提到,世界正在加速擁抱AI——去年同期,Google 旗下Gemini所有模型API及AI產(chǎn)品每月處理9.7萬億個(gè)Token。而現(xiàn)在,這一數(shù)字已超過480萬億,前后增長了50多倍。
首次引入Gemeni 2.5 的谷歌搜索
在"老本行"搜索方面,這次I/O大會(huì)宣布將Gemini 2.5正式引入Google搜索引擎,面向美國用戶全面開放。
引入AI模型的谷歌搜索將提供“AI mode”"AI Search”功能。皮查伊稱,“AI搜索是對(duì)傳統(tǒng)搜索引擎的顛覆”。
在AI Mode下,用戶可以通過語音、文字、圖片等多模態(tài)方式輸入搜索問題,搜索引擎會(huì)自動(dòng)分解查詢意圖,生成對(duì)應(yīng)的答案,可以用在制定旅游行程、購物建議、編程指南等生活場(chǎng)景中。
此外,AI Mode將支持一系列全新的功能,比如:深度搜索(Deep Search)、實(shí)時(shí)互動(dòng)搜索(Search Live)。
深度搜索可以支持AI模型自動(dòng)發(fā)起上百次搜索,跨領(lǐng)域整合信息并生成引用詳盡的專家級(jí)報(bào)告,節(jié)省大量人工研究時(shí)間。
實(shí)時(shí)互動(dòng)搜索功能則基于Gemini模型和Live API技術(shù),支持實(shí)時(shí)視頻交互。用戶在AI Mode界面下輕觸“Live”圖標(biāo)后,可以直接通過手機(jī)攝像頭對(duì)著現(xiàn)實(shí)場(chǎng)景進(jìn)行“現(xiàn)場(chǎng)直播”提問:AI能夠?qū)崟r(shí)“看懂”攝像頭畫面內(nèi)容,結(jié)合視覺信息進(jìn)行理解和分析。實(shí)時(shí)以語音形式給出回答,并提供相關(guān)資源鏈接。

AI Mode已于2025年5月20日上線,作為搜索引擎的新標(biāo)簽頁形式,面向美國用戶開放。
新AI硬件:“Android XR”與AR眼鏡
谷歌最后環(huán)節(jié)還展示了一系列新的AI硬件,頭顯XR與眼鏡,這些新型硬件都是以其“Android XR”平臺(tái)為基礎(chǔ)開發(fā)構(gòu)建。
Android XR是谷歌與高通、三星合作,專為擴(kuò)展現(xiàn)實(shí)(XR)設(shè)備的開發(fā)平臺(tái)。谷歌工程主管Shahram Izadi介紹稱,除手機(jī)外,未來幾個(gè)月里谷歌將會(huì)把Gemini AI功能拓展至智能手表、汽車控制臺(tái)、電視及眼鏡上。
谷歌宣布將與中國AR眼鏡企業(yè)XREAL合作,發(fā)布新一代AR眼鏡——Project Aura。作為谷歌首款專為Android XR平臺(tái)打造的旗艦級(jí)AR眼鏡,Project Aura基于OST(Optical See through,光學(xué)透視)技術(shù)路線,谷歌將在操作系統(tǒng)與XR生態(tài)提供平臺(tái)支持,由XREAL提供輕量化AR眼鏡硬件,并將搭載高通驍龍XR芯片。
谷歌團(tuán)隊(duì)人員現(xiàn)場(chǎng)演示了這款眼鏡產(chǎn)品的新功能。眼鏡內(nèi)置谷歌最新的Gemini人工智能助手,支持通過對(duì)話回復(fù)短信、搜索眼前圖片信息、實(shí)時(shí)導(dǎo)航等功能。

同時(shí)這款眼鏡支持多語言即時(shí)翻譯。兩位工作人員在臺(tái)上戴上眼鏡面對(duì)面對(duì)話,演示了將波斯語和印地語對(duì)話翻譯成英語的功能。
該眼鏡預(yù)計(jì)今年下半年上市,谷歌還將與三星合作推出另一款頭戴式MR設(shè)備“Moohan”。