觀看 2025 年 Google I/O 大會的 AI 相關講座

發布日期:2025 年 5 月 22 日

AI 技術正在改變網頁開發人員建構網站和網路應用程式的方式。在 2025 年 Google I/O 大會上,我們分享了過去一年的成果、展示合作夥伴如何在網路上運用 AI,並宣布推出新的內建 AI API

你錯過活動了嗎?好消息!你現在可以隨選觀看講座影片了!

透過 Chrome 內建 Gemini Nano,實現實用的內建 AI

我們的核心使命是讓所有開發人員和使用者都能享有更聰明的 Chrome 和網路。在本場演講中,Thomas Steiner 將分享 內建 AI 的最新資訊、實際應用情境,以及未來展望。

內建 AI 會在瀏覽器中執行用戶端模型,這有幾項優點:

  • 私密:機密使用者資料會保留在裝置上,絕不會離開瀏覽器。
  • 離線:應用程式可在未連上網路的情況下存取 AI 功能。
  • 效能優異:這些 API 可透過硬體加速功能提供出色的效能。

查看各項內建 AI API 的程式碼範例、取得最新狀態,並瞭解哪些公司正在導入這項技術。

多模態 API

我們正在開發全新的多模態 API。也就是說,你可以詢問 Gemini Nano 在視覺內容中「看到」或在音訊內容中「聽到」的內容。舉例來說,您可以在網誌平台上傳圖片時,取得替代文字建議,讓使用者進行調整。你也可以要求 Gemini Nano 為 Podcast 撰寫說明或轉錄內容。

混合式 AI

開發人員在使用用戶端 AI 時會面臨的一個挑戰,是並非所有平台和瀏覽器都符合在裝置上執行模型的硬體需求。Gemini 和 Firebase 合作建構 Firebase Web SDK,讓您在無法使用用戶端導入作業時,改為使用伺服器上的 Gemini Nano。

與您合作

我們很高興能與許多開發人員合作,共同開發內建 AI API。我們會持續努力,但這一切都離不開你的支持。

  • 搶先體驗計畫:超過 16,000 位開發人員已加入EPP,測試新的 API、發掘新的用途,並提供意見回饋,以便我們打造更優質的網路 AI。
  • 駭客松:我們舉辦了兩場駭客松,您打造了一些精彩的網站和擴充功能

你的工作還沒結束。歡迎持續提供意見、測試新的內建 API,我們會持續改進。您甚至可以加入 W3C 的 Web Machine Learning Community Group,協助這些 API 標準化。

在瀏覽器中使用 Gemini 的 Chrome 擴充功能,迎接未來

過去兩年內,AI 技術輔助的擴充功能數量成長一倍。事實上,從 Chrome 線上應用程式商店安裝的擴充功能中,有 10% 會使用 AI。在本次演講中,Sebastian Benz 將透過實際範例說明 Chrome 擴充功能和 Gemini 的強大組合。

範例包括如何使用 Chrome 新推出的提示 API,從用戶端擷取及處理網站資料,讓瀏覽器更實用。

在 Chrome 擴充功能中,展示 Chrome 提示 API 的多模式功能潛力,讓使用者更容易存取音訊和圖片。

說明 Google DeepMind 的 Project Mariner 如何使用 Chrome 擴充功能和最新的 Gemini Cloud API 建構完整的瀏覽器代理程式,讓我們一窺瀏覽器的未來。

探索在雲端或 Chrome 擴充功能中使用 Gemini 的潛力,在瀏覽器中建立全新的瀏覽體驗,讓瀏覽器更實用。

實際應用中的網頁 AI 用途和策略

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota 和 Swetha Gopalakrishnan 舉出實際案例,說明企業如何運用網路上的 AI 技術改善業務和使用者體驗。無論他們的解決方案採用的是用戶端模型、伺服器端或混合式解決方案,重點都是您現在提供給使用者的全新功能和功能。

BILIBILI 推出了彈幕留言功能,讓影片串流更具吸引力。這類字幕會在影片中提供即時使用者留言,並顯示在講者後方。為此,他們使用圖像區隔技術,這是一個眾所皆知的機器學習概念。因此,工作階段持續時間增加了 30%!Tokopedia 使用臉部偵測模型,減少賣家驗證程序中的摩擦點,以便評估上傳相片的品質。因此,手動核准作業量減少了近 70%。

Vision Nanny 是專為腦性視覺障礙 (CVI) 兒童設計的網路平台,提供 AI 輔助的視覺刺激活動。這些模型會使用多個 MediaPipe 程式庫,包括手部地標偵測模型,可在圖片、影片或即時模式中找出手部關鍵點。在 50 名兒童參與的試驗中,Vision Nanny 的回應速度比手動視覺刺激活動快上 5 倍。治療師表示,移除手動設定後,每節療程平均可省下三小時。

Google Meet 提供多項 AI 輔助功能,包括改善燈光效果,以及減少模糊和模糊的影片。最大的挑戰在於這些功能需要即時運作。這時就需要 WebAssembly (Wasm) 的協助,才能充分發揮電腦 CPU 的效能,並啟用即時影片處理功能。

以上只是幾個網路上 AI 應用的實際範例。其他幾家公司也曾嘗試使用內建 AI API,其中部分公司在個案研究中分享了相關成果。

用戶端網頁 AI 代理程式,打造更聰明的未來使用者體驗

Jason Mayes 介紹了網際網路的未來:網路 AI 虛擬服務專員。網路的未來將會是代理人,直接將 AI 功能帶入瀏覽器,為您執行實用的作業,而這超越了大型語言模型 (LLM) 的功能。

使用用戶端方法可強化隱私權、縮短延遲時間,並可能節省大量成本。您可以使用 Bot 升級現有網站,讓 Bot 自動為使用者執行工作,動態選取並使用公開的工具 (可能會循環使用),以便 Bot 完成可能複雜或多步驟的工作。

服務專員可以:

  • 規劃及劃分子工作:透過多步驟規劃處理更複雜的問題,將工作細分為合理的步驟來完成。
  • 選取最合適的工具,無論是函式、API 用途,還是存取擴充語言模型基本知識的資料存放區,然後在外部執行動作。
  • 根據代理程式或外部工具先前的輸出內容,保留以情境為依據的記憶體。短期記憶就像是 FIFO 緩衝區,會儲存模型的上下文視窗大小內的上下文歷史記錄,而長期記憶則可使用向量資料庫,儲存可用於從先前的對話會話或其他資料來源中,根據需要喚回的資訊。

Web AI 代理程式可整合至 JavaScript 中的現有網頁技術。最終,我們必須持續加速硬體,以便在瀏覽器中最佳化模型執行效能。展望未來,WebNN 等技術將在跨 CPU、GPU 和 NPU 的模型執行最佳化方面扮演關鍵角色。隨著 LLM 縮小趨勢和持續進步,這項技術在未來只會變得更強大。

建議您採用混合式方法,將裝置端處理作業與策略性雲端呼叫結合,以便立即在瀏覽器中打造智慧、即時回應且個人化的使用者體驗。隨著裝置執行大型語言模型的能力越來越強,您投資 Web AI 方法的回報很快就會顯現。

重溫 2025 年 Google I/O 大會

我們已發布所有 Google I/O 2025 大會演講,並提供專屬於網頁開發人員的播放清單。請前往 io.google/2025 觀看更多內容。