Gemini貫穿一切。
這是「甲子光年」在看完2024年Google I/O開發(fā)者大會的最大感受。
5月14日,谷歌2024年I/O開發(fā)者大會如期在加州山景城拉開帷幕。今年的主題完全圍繞人工智能展開,特別是生成式人工智能和其在各類應用中的實際應用,如 Workspace和Gmail的整合與優(yōu)化。
首席執(zhí)行官桑達爾·皮查伊(Sundar Pichai)在演講中一共說了121次“AI”,并喊出了一句嘹亮的口號——“整合全球信息,惠及所有民眾”。
現(xiàn)場,谷歌發(fā)布了Gemini系列的最新AI模型:Gemini 1.5 Flash。
同時,谷歌也宣布了Gemini 1.5 Pro升級,全面支持Workspace,同時向全球開發(fā)者開放。Google Workspace辦公套件也宣布將進一步整合Gemini,推出基于Gemini 1.5 Pro的多種技能,如可總結(jié)郵件內(nèi)容。Gmail也將深度整合Gemini,匯總郵件內(nèi)容并生成更好的回復。
1.AI模型:Gemimi宇宙
皮查伊在大會上公布了一系列AI模型的動態(tài)。
首先是對Gemini 1.5 Pro模型進行了升級。
Gemini 1.5 Pro模型已全球向開發(fā)者開放。原本它的上下文窗口是100萬tokens,現(xiàn)在增加到了200萬tokens,能處理更多的數(shù)據(jù)。

谷歌I/O大會現(xiàn)場,來源:谷歌
用戶即使提供數(shù)千頁的文本或者幾個小時的視頻,Gemini 1.5 Pro也能夠理解內(nèi)容并回答相關的問題。這項升級將讓模型能同時處理2小時的視頻、22小時的音頻、超過60000行代碼,或超過140萬個單詞。
下個月Gemini 1.5 Pro還將在API層面推出新功能,包括視頻輸入、并行函數(shù)調(diào)用和文本緩存,以提高處理多個請求和問答文件時的效率。
隨后他介紹了Gemini系列新模型——Gemini 1.5 Flash。
這是一個比Gemini 1.5 Pro模型運行更快,體積更小,更易于部署,支持處理多種類型的數(shù)據(jù),它專為開發(fā)者設計。
Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之間,通過一種稱為“蒸餾”的過程,將Pro版本中的關鍵知識和技能轉(zhuǎn)移到一個更小的模型中,使其具備與Pro相同的多模態(tài)功能和100萬個token的長上下文窗口。
Gemini 1.5 Flash現(xiàn)在就可以使用了。
DeepMind的聯(lián)合創(chuàng)始人兼CEO戴密斯·哈薩比斯(Demis Hassabis)提到,他們根據(jù)開發(fā)者的反饋,優(yōu)化了模型的響應速度和成本效率。Gemini 1.5 Flash在處理大量數(shù)據(jù)方面表現(xiàn)出色,特別適用于聊天應用、視頻處理和圖像字幕。
Gemini 1.5 Pro將在Alphabet的內(nèi)部測試實驗室Workspace Labs進行測試。Gemini 1.5 Flash也將在機器學習平臺Vertex AI上進行試驗和使用,該平臺使開發(fā)者能夠訓練和部署AI應用。
Gemini 1.5 Flash每百萬token的標準價格為0.7美元,輸出為1.05美元。對于較小的上下文(小于128k),有折扣價:輸入為0.35美元/百萬token,輸出為0.53美元/百萬token。這比GPT-3.5 Turbo的價格(輸入0.5美元/百萬token,輸出0.15美元/百萬token)要高一些。

谷歌I/O大會現(xiàn)場,來源:谷歌
Gemini 1.5 Pro是Google當前最強大的模型,標準價格為每百萬token輸入7美元,輸出21美元。對于較小的上下文(同樣小于128k),折扣價格為輸入3.5美元/百萬token,輸出10.5美元/百萬token。相比于GPT-4o(輸入價格5美元/百萬token,輸出15美元/百萬token)略貴一些。
目前,谷歌正在籌備一款Project Astra的通用AI代理,這是一款通過智能手機攝像頭分析周圍世界并與用戶進行交互的應用。
Astra設計為能夠記住看到和聽到的內(nèi)容,從而理解上下文并采取行動。為了提高實用性,谷歌優(yōu)化了其處理信息的速度,通過持續(xù)編碼視頻幀和結(jié)合視頻與語音輸入到事件時間線上,并緩存信息以實現(xiàn)高效回憶。
此外,谷歌還通過增強語音模型,讓Astra具有更廣泛的語調(diào),使其可以更自然地與用戶交流,無滯后或延遲。
在實際演示中,一個人使用手機的攝像頭掃描辦公室,與Astra通過語言交互,比如詢問“當你看到有東西發(fā)出聲音時,請告訴我。”Astra不僅能識別物體和代碼,還能實時進行語音互動,展現(xiàn)了它的實用性和交互能力。
Project Astra展示了其出色的視覺理解能力和快速的響應時間。一個人在辦公室中用攝像頭掃描其中的物品及場景,并用語音詢問它相關問題。與GPT-4o的功能異曲同工。
