本頁面由 Cloud Translation API 翻譯而成。

觀看 2025 年 Google I/O 大會的 AI 相關講座

Alexandra Klepper

發布日期：2025 年 5 月 22 日

AI 技術正在改變網頁開發人員建構網站和網路應用程式的方式。在 2025 年 Google I/O 大會上，我們分享了過去一年的成果、展示合作夥伴如何在網路上運用 AI，並宣布推出新的內建 AI API。

你錯過活動了嗎？好消息！你現在可以隨選觀看講座影片了！

透過 Chrome 內建 Gemini Nano，實現實用的內建 AI

Thomas Steiner

我們的核心使命是讓所有開發人員和使用者都能享有更聰明的 Chrome 和網路。在本場演講中，Thomas Steiner 將分享內建 AI 的最新資訊、實際應用情境，以及未來展望。

內建 AI 會在瀏覽器中執行用戶端模型，這有幾項優點：

私密：機密使用者資料會保留在裝置上，絕不會離開瀏覽器。
離線：應用程式可在未連上網路的情況下存取 AI 功能。
效能優異：這些 API 可透過硬體加速功能提供出色的效能。

查看各項內建 AI API 的程式碼範例、取得最新狀態，並瞭解哪些公司正在導入這項技術。

多模態 API

我們正在開發全新的多模態 API。也就是說，你可以詢問 Gemini Nano 在視覺內容中「看到」或在音訊內容中「聽到」的內容。舉例來說，您可以在網誌平台上傳圖片時，取得替代文字建議，讓使用者進行調整。你也可以要求 Gemini Nano 為 Podcast 撰寫說明或轉錄內容。

混合式 AI

開發人員在使用用戶端 AI 時會面臨的一個挑戰，是並非所有平台和瀏覽器都符合在裝置上執行模型的硬體需求。Gemini 和 Firebase 合作建構 Firebase Web SDK，讓您在無法使用用戶端導入作業時，改為使用伺服器上的 Gemini Nano。

與您合作

我們很高興能與許多開發人員合作，共同開發內建 AI API。我們會持續努力，但這一切都離不開你的支持。

搶先體驗計畫：超過 16,000 位開發人員已加入EPP，測試新的 API、發掘新的用途，並提供意見回饋，以便我們打造更優質的網路 AI。
駭客松：我們舉辦了兩場駭客松，您打造了一些精彩的網站和擴充功能。

你的工作還沒結束。歡迎持續提供意見、測試新的內建 API，我們會持續改進。您甚至可以加入 W3C 的 Web Machine Learning Community Group，協助這些 API 標準化。

在瀏覽器中使用 Gemini 的 Chrome 擴充功能，迎接未來

Sebastian Benz

過去兩年內，AI 技術輔助的擴充功能數量成長一倍。事實上，從 Chrome 線上應用程式商店安裝的擴充功能中，有 10% 會使用 AI。在本次演講中，Sebastian Benz 將透過實際範例說明 Chrome 擴充功能和 Gemini 的強大組合。

範例包括如何使用 Chrome 新推出的提示 API，從用戶端擷取及處理網站資料，讓瀏覽器更實用。

在 Chrome 擴充功能中，展示 Chrome 提示 API 的多模式功能潛力，讓使用者更容易存取音訊和圖片。

說明 Google DeepMind 的 Project Mariner 如何使用 Chrome 擴充功能和最新的 Gemini Cloud API 建構完整的瀏覽器代理程式，讓我們一窺瀏覽器的未來。

探索在雲端或 Chrome 擴充功能中使用 Gemini 的潛力，在瀏覽器中建立全新的瀏覽體驗，讓瀏覽器更實用。

實際應用中的網頁 AI 用途和策略

Yuriko Hirota

Swetha Gopalakrishnan

Yuriko Hirota 和 Swetha Gopalakrishnan 舉出實際案例，說明企業如何運用網路上的 AI 技術改善業務和使用者體驗。無論他們的解決方案採用的是用戶端模型、伺服器端或混合式解決方案，重點都是您現在提供給使用者的全新功能和功能。

BILIBILI 推出了彈幕留言功能，讓影片串流更具吸引力。這類字幕會在影片中提供即時使用者留言，並顯示在講者後方。為此，他們使用圖像區隔技術，這是一個眾所皆知的機器學習概念。因此，工作階段持續時間增加了 30%！Tokopedia 使用臉部偵測模型，減少賣家驗證程序中的摩擦點，以便評估上傳相片的品質。因此，手動核准作業量減少了近 70%。

Vision Nanny 是專為腦性視覺障礙 (CVI) 兒童設計的網路平台，提供 AI 輔助的視覺刺激活動。這些模型會使用多個 MediaPipe 程式庫，包括手部地標偵測模型，可在圖片、影片或即時模式中找出手部關鍵點。在 50 名兒童參與的試驗中，Vision Nanny 的回應速度比手動視覺刺激活動快上 5 倍。治療師表示，移除手動設定後，每節療程平均可省下三小時。

Google Meet 提供多項 AI 輔助功能，包括改善燈光效果，以及減少模糊和模糊的影片。最大的挑戰在於這些功能需要即時運作。這時就需要 WebAssembly (Wasm) 的協助，才能充分發揮電腦 CPU 的效能，並啟用即時影片處理功能。

以上只是幾個網路上 AI 應用的實際範例。其他幾家公司也曾嘗試使用內建 AI API，其中部分公司在個案研究中分享了相關成果。

用戶端網頁 AI 代理程式，打造更聰明的未來使用者體驗

Jason Mayes

Jason Mayes 介紹了網際網路的未來：網路 AI 虛擬服務專員。網路的未來將會是代理人，直接將 AI 功能帶入瀏覽器，為您執行實用的作業，而這超越了大型語言模型 (LLM) 的功能。

使用用戶端方法可強化隱私權、縮短延遲時間，並可能節省大量成本。您可以使用 Bot 升級現有網站，讓 Bot 自動為使用者執行工作，動態選取並使用公開的工具 (可能會循環使用)，以便 Bot 完成可能複雜或多步驟的工作。

服務專員可以：

規劃及劃分子工作：透過多步驟規劃處理更複雜的問題，將工作細分為合理的步驟來完成。
選取最合適的工具，無論是函式、API 用途，還是存取擴充語言模型基本知識的資料存放區，然後在外部執行動作。
根據代理程式或外部工具先前的輸出內容，保留以情境為依據的記憶體。短期記憶就像是 FIFO 緩衝區，會儲存模型的上下文視窗大小內的上下文歷史記錄，而長期記憶則可使用向量資料庫，儲存可用於從先前的對話會話或其他資料來源中，根據需要喚回的資訊。

Web AI 代理程式可整合至 JavaScript 中的現有網頁技術。最終，我們必須持續加速硬體，以便在瀏覽器中最佳化模型執行效能。展望未來，WebNN 等技術將在跨 CPU、GPU 和 NPU 的模型執行最佳化方面扮演關鍵角色。隨著 LLM 縮小趨勢和持續進步，這項技術在未來只會變得更強大。

建議您採用混合式方法，將裝置端處理作業與策略性雲端呼叫結合，以便立即在瀏覽器中打造智慧、即時回應且個人化的使用者體驗。隨著裝置執行大型語言模型的能力越來越強，您投資 Web AI 方法的回報很快就會顯現。

重溫 2025 年 Google I/O 大會

我們已發布所有 Google I/O 2025 大會演講，並提供專屬於網頁開發人員的播放清單。請前往 io.google/2025 觀看更多內容。