पब्लिश किया गया: 22 मई, 2025
एआई की मदद से, वेब डेवलपर वेबसाइटें और वेब ऐप्लिकेशन बनाने का तरीका बदल रहे हैं. Google I/O 2025 में, हमने बताया कि पिछले साल से हम किस पर काम कर रहे हैं. साथ ही, यह भी बताया कि हमारे पार्टनर, वेब पर एआई का इस्तेमाल कैसे कर रहे हैं. हमने एआई के नए एपीआई के बारे में भी एलान किया.
क्या आपने इवेंट में हिस्सा नहीं लिया? आपके लिए एक अच्छी खबर है. अब ये बातचीत, ऑन-डिमांड देखी जा सकती हैं!
Chrome में Gemini Nano के साथ, पहले से मौजूद काम का एआई
हमारा मुख्य मकसद, सभी डेवलपर और सभी उपयोगकर्ताओं के लिए Chrome और वेब को स्मार्ट बनाना है. इस बातचीत में, थॉमस स्टाइनर ने पहले से मौजूद एआई के अपडेट, इस्तेमाल के उदाहरण, और आने वाले समय के बारे में बताया है.
पहले से मौजूद एआई, ब्राउज़र में क्लाइंट-साइड मॉडल चलाता है. इससे कई फ़ायदे मिलते हैं:
- निजी: उपयोगकर्ता का संवेदनशील डेटा डिवाइस पर ही रहता है. उसे ब्राउज़र से बाहर भेजने की ज़रूरत नहीं होती.
- ऑफ़लाइन: ऐप्लिकेशन, इंटरनेट कनेक्शन के बिना भी एआई की सुविधाओं को ऐक्सेस कर सकते हैं.
- बेहतरीन परफ़ॉर्मेंस: हार्डवेयर से तेज़ी लाने की सुविधा की मदद से, ये एपीआई बेहतरीन परफ़ॉर्म करते हैं.
पहले से मौजूद एआई एपीआई के हर कोड सैंपल को देखें. साथ ही, उनके स्टेटस के बारे में अपडेट पाएं और देखें कि कौनसी कंपनियां इस टेक्नोलॉजी को लागू कर रही हैं.
मल्टीमोडल एपीआई
हम मल्टीमोडल वाले नए एपीआई पर काम कर रहे हैं. इसका मतलब है कि Gemini Nano से पूछा जा सकता है कि वह विज़ुअल कॉन्टेंट में "क्या देखता है" या ऑडियो कॉन्टेंट में "क्या सुनता है". उदाहरण के लिए, ब्लॉग प्लैटफ़ॉर्म पर अपलोड की गई इमेज के लिए, वैकल्पिक टेक्स्ट के सुझाव पाएं. उपयोगकर्ता इन सुझावों में बदलाव कर सकते हैं. इसके अलावा, Gemini Nano से पॉडकास्ट के लिए जानकारी या ट्रांसक्रिप्ट लिखने के लिए कहा जा सकता है.
हाइब्रिड एआई
क्लाइंट-साइड एआई के साथ डेवलपर को एक समस्या का सामना करना पड़ता है. यह समस्या यह है कि सभी प्लैटफ़ॉर्म और ब्राउज़र, डिवाइस पर मॉडल चलाने के लिए हार्डवेयर की ज़रूरी शर्तों को पूरा नहीं करते. Gemini और Firebase ने Firebase वेब SDK टूल बनाने के लिए साझेदारी की है, ताकि क्लाइंट-साइड पर लागू करने की सुविधा उपलब्ध न होने पर, सर्वर पर Gemini Nano का इस्तेमाल किया जा सके.
आपके साथ काम करना
हमें खुशी है कि हमने पहले से मौजूद एआई एपीआई पर कई डेवलपर के साथ काम किया है. आपके बिना, हम कुछ नहीं कर सकते.
- रिलीज़ होने से पहले इस्तेमाल की अनुमति वाले कार्यक्रम: 16,000 से ज़्यादा डेवलपर, EPP में शामिल हो चुके हैं. वे नए एपीआई की जांच कर रहे हैं, इस्तेमाल के नए उदाहरणों को खोज रहे हैं, और वेब के लिए बेहतर एआई बनाने के लिए सुझाव/राय दे रहे हैं.
- हैकथॉन: हमने दो हैकथॉन होस्ट किए हैं. इनमें आपने कुछ बेहतरीन वेबसाइटें और एक्सटेंशन बनाए हैं.
आपका काम पूरा नहीं हुआ है. अपने सुझाव, राय, और शिकायतें हमसे शेयर करते रहें. साथ ही, पहले से मौजूद नए एपीआई को आज़माते रहें. हम इनमें लगातार सुधार करते रहेंगे. W3C के वेब मशीन लर्निंग कम्यूनिटी ग्रुप में शामिल होकर, इन एपीआई को स्टैंडर्ड बनाने में भी मदद की जा सकती है.
आपके ब्राउज़र में Gemini के साथ Chrome एक्सटेंशन के इस्तेमाल के बारे में जानकारी
पिछले दो सालों में, एआई (AI) के साथ काम करने वाले एक्सटेंशन की संख्या दोगुनी हो गई है. असल में, Chrome Web Store से इंस्टॉल किए गए 10% एक्सटेंशन, एआई का इस्तेमाल करते हैं. इस टॉक में, सेबेस्टियन बेंज ने इस बात के व्यावहारिक उदाहरण दिए हैं कि Chrome एक्सटेंशन और Gemini का कॉम्बिनेशन इतना असरदार क्यों है.
उदाहरणों में, Chrome के नए लॉन्च किए गए प्रॉम्प्ट एपीआई का इस्तेमाल करके, क्लाइंट पर वेबसाइटों से डेटा निकालने और उसे प्रोसेस करके, ब्राउज़र को ज़्यादा मददगार बनाने का तरीका बताया गया है.
Chrome एक्सटेंशन में, Chrome के प्रॉम्प्टिंग एपीआई की नई मल्टीमोडल सुविधाओं की क्षमताओं को दिखाने के लिए, ऑडियो और इमेज को उपयोगकर्ताओं के लिए ज़्यादा ऐक्सेस करने लायक बनाया गया है.
इस वीडियो में, ब्राउज़िंग के भविष्य के बारे में बताया गया है. इसमें यह बताया गया है कि Google DeepMind का Project Mariner, Chrome एक्सटेंशन और Gemini Cloud के नए एपीआई का इस्तेमाल करके, एक बेहतर ब्राउज़र एजेंट कैसे बनाता है.
Chrome एक्सटेंशन में, Gemini को क्लाउड में या ब्राउज़र में इस्तेमाल करने की संभावनाओं को एक्सप्लोर करें. इससे, ब्राउज़िंग का नया अनुभव मिलता है और ब्राउज़र ज़्यादा मददगार बनता है.
असल दुनिया में वेब एआई के इस्तेमाल के उदाहरण और रणनीतियां
यूरीको हिरोता और श्वेता गोपालकृष्णन ने वेब पर एआई का इस्तेमाल करके, अपने कारोबार और उपयोगकर्ता अनुभव को बेहतर बनाने वाली कंपनियों के असल उदाहरणों को हाइलाइट किया.भले ही, उनके सलूशन में क्लाइंट-साइड मॉडल, सर्वर-साइड या हाइब्रिड सलूशन का इस्तेमाल किया गया हो, लेकिन फ़र्क़ सिर्फ़ इस बात से पड़ता है कि आपने अपने उपयोगकर्ताओं के लिए, फ़िलहाल कौनसे नए फ़ंक्शन और सुविधाएं उपलब्ध कराई हैं.
BILIBILI ने अपनी वीडियो स्ट्रीम को ज़्यादा दिलचस्प बनाने के लिए, एक नई सुविधा जोड़ी है: बुलेट-स्क्रीन टिप्पणियां. ये रीयल-टाइम में, वीडियो पर की गई टिप्पणियों को दिखाते हैं. ये टिप्पणियां, वीडियो में बोलने वाले व्यक्ति के पीछे दिखती हैं. ऐसा करने के लिए, वे इमेज सेगमेंटेशन का इस्तेमाल करते हैं. यह मशीन लर्निंग का एक जाना-पहचाना कॉन्सेप्ट है. इस वजह से, सेशन की अवधि में 30% की बढ़ोतरी हुई! Tokopedia ने चेहरे की पहचान करने वाले मॉडल का इस्तेमाल करके, सेलर की पुष्टि करने की प्रोसेस को आसान बनाया है. इससे अपलोड की गई फ़ोटो की क्वालिटी का आकलन किया जा सकता है. इस वजह से, मैन्युअल तरीके से अनुमतियों की संख्या में करीब 70% की कमी आई.
विज़न नैनी, सेरेब्रल विज़ुअल इंपेयरमेंट (सीवीआई) से पीड़ित बच्चों के लिए एक वेब प्लैटफ़ॉर्म है. यह एआई की मदद से, विज़न स्टिम्युलेशन गतिविधियां उपलब्ध कराता है. ये कई MediaPipe लाइब्रेरी का इस्तेमाल करते हैं. इनमें हाथ के लैंडमार्क का पता लगाने वाला मॉडल भी शामिल है. यह मॉडल, किसी इमेज, वीडियो या रीयल-टाइम में हाथ के मुख्य पॉइंट का पता लगाता है. 50 बच्चों के साथ किए गए पायलट कार्यक्रम से पता चला है कि विज़न नैनी, मैन्युअल विज़ुअल उत्तेजना वाली गतिविधियों की तुलना में पांच गुना तेज़ी से जवाब देती है. थेरेपिस्ट ने बताया कि मैन्युअल सेटअप हटाने से, हर सेशन में औसतन तीन घंटे बचते हैं.
Google Meet में एआई की मदद से काम करने वाली कई सुविधाएं हैं. जैसे, रोशनी को बेहतर बनाना, वीडियो को धुंधला होने से बचाना, और वीडियो को फ़िज़ी होने से बचाना. सबसे बड़ी चुनौती यह है कि इन सुविधाओं को रीयल-टाइम में काम करना चाहिए. ऐसे में, WebAssembly (Wasm) का इस्तेमाल किया जाता है. इससे कंप्यूटर के सीपीयू की पूरी क्षमता का इस्तेमाल किया जा सकता है और रीयल-टाइम वीडियो प्रोसेसिंग की सुविधा चालू की जा सकती है.
ये वेब पर एआई के इस्तेमाल के कुछ उदाहरण हैं. कई अन्य कंपनियों ने पहले से मौजूद एआई एपीआई के साथ प्रयोग किया है. इनमें से कुछ कंपनियों ने केस स्टडी में अपना काम शेयर किया है.
क्लाइंट-साइड वेब एआई एजेंट, ताकि आने वाले समय में उपयोगकर्ताओं को बेहतर अनुभव दिया जा सके
जेसन मेज़ ने इंटरनेट के आने वाले समय के बारे में बताया: वेब एआई एजेंट. वेब के लिए एजेंट की सुविधाएं उपलब्ध कराई जा रही हैं. इससे एआई की सुविधाएं सीधे ब्राउज़र में उपलब्ध होंगी. इससे आपकी ओर से काम करने के लिए, लार्ज लैंग्वेज मॉडल (एलएलएम) की सुविधाओं के अलावा, और भी काम किए जा सकेंगे.
क्लाइंट-साइड वाले तरीके से, निजता को बेहतर बनाया जा सकता है, रीडायरेक्ट में लगने वाला समय कम किया जा सकता है, और लागत में काफ़ी बचत की जा सकती है. एजेंट की मदद से, अपनी मौजूदा वेबसाइट को अपग्रेड किया जा सकता है, ताकि उपयोगकर्ता के लिए अपने-आप टास्क पूरे किए जा सकें. इसके लिए, एजेंट को ज़रूरी टूल को डाइनैमिक तरीके से चुना और इस्तेमाल किया जाता है. ऐसा, शायद लूप में किया जाता है. इससे एजेंट, मुश्किल या कई चरणों वाले टास्क पूरे कर पाता है.
एजेंट ये काम कर सकते हैं:
- सब-टास्क को प्लान करना और बांटना. इसके लिए, कई चरणों में प्लान बनाकर, टास्क को पूरा करने के लिए उसे अलग-अलग चरणों में बांटें. इससे, ज़्यादा मुश्किल समस्याओं को हल करने में मदद मिलती है.
- सबसे अच्छे टूल चुनें. भले ही, वे फ़ंक्शन हों, एपीआई का इस्तेमाल हों या एUGMENTED LANGUAGE MODEL के बेस नॉलेज का डेटास्टोर ऐक्सेस हों. इसके बाद, बाहरी दुनिया में कार्रवाइयां करें.
- एजेंट या बाहरी टूल के पिछले आउटपुट के आधार पर, कॉन्टेक्स्ट के हिसाब से मेमोरी बनाए रखना. शॉर्ट-टर्म मेमोरी, कॉन्टेक्स्ट विंडो के साइज़ तक कॉन्टेक्स्ट के इतिहास के एफ़आईएफ़ओ बफ़र की तरह काम करती है. वहीं, लंबी अवधि की मेमोरी में, वैक्टर डेटाबेस का इस्तेमाल करके जानकारी को सेव किया जा सकता है, ताकि ज़रूरत पड़ने पर बातचीत के पिछले सेशन या अन्य डेटा सोर्स से जानकारी को पूरी तरह से वापस लाया जा सके.
वेब एआई एजेंट को, JavaScript में मौजूद वेब टेक्नोलॉजी के साथ इंटिग्रेट करने के लिए डिज़ाइन किया गया है. आखिर में, यह ज़रूरी है कि हम ब्राउज़र में मॉडल को बेहतर तरीके से चलाने के लिए, अपने हार्डवेयर को बेहतर बनाते रहें. आने वाले समय में, WebNN जैसी टेक्नोलॉजी, सीपीयू, जीपीयू, और एनपीयू पर मॉडल को ऑप्टिमाइज़ करने में अहम भूमिका निभाएगी. छोटे एलएलएम के रुझान और लगातार बेहतर होने की वजह से, आने वाले समय में यह और भी बेहतर होगा.
हाइब्रिड तरीके का इस्तेमाल करें. इसमें, डिवाइस पर प्रोसेसिंग के साथ-साथ रणनीतिक क्लाउड कॉल का इस्तेमाल किया जाता है. इससे, ब्राउज़र में उपयोगकर्ताओं को बेहतर, रिस्पॉन्सिव, और उनकी पसंद के मुताबिक अनुभव मिल सकता है. डिवाइसों के एलएलएम चलाने की क्षमता बढ़ने के साथ ही, वेब एआई के तरीके में निवेश करने से आपको जल्द ही फ़ायदा मिलेगा.
Google I/O 2025 से जुड़ी जानकारी
हमने Google I/O 2025 की सभी बातचीत रिलीज़ कर दी हैं. इनमें वेब डेवलपर के लिए बनाई गई प्लेलिस्ट भी शामिल है. io.google/2025 पर और भी वीडियो देखें.