প্রকাশিত: 22 মে, 2025
AI কীভাবে ওয়েব ডেভেলপাররা ওয়েবসাইট এবং ওয়েব অ্যাপ্লিকেশন তৈরি করছে তা পরিবর্তন করছে। Google I/O 2025-এ, আমরা গত বছর ধরে কী কাজ করছি তা শেয়ার করেছি, আমাদের অংশীদাররা কীভাবে ওয়েবে AI ব্যবহার করছে তা প্রদর্শন করেছি এবং নতুন বিল্ট-ইন AI API ঘোষণা করেছি ।
আপনি ঘটনা মিস? সুসংবাদ, আপনি এখন চাহিদা অনুযায়ী আলোচনা দেখতে পারেন!
ক্রোমে জেমিনি ন্যানো সহ ব্যবহারিক বিল্ট-ইন AI
আমাদের মূল লক্ষ্য হল সমস্ত বিকাশকারী এবং সমস্ত ব্যবহারকারীদের জন্য Chrome এবং ওয়েবকে আরও স্মার্ট করে তোলা৷ এই আলোচনায়, থমাস স্টেইনার অন্তর্নির্মিত AI , ব্যবহারিক ব্যবহারের ক্ষেত্রে এবং আমাদের ভবিষ্যত সম্পর্কে আপডেট শেয়ার করেন।
অন্তর্নির্মিত AI ব্রাউজারে ক্লায়েন্ট-সাইড মডেলগুলি চালায়, যার বেশ কয়েকটি সুবিধা রয়েছে:
- ব্যক্তিগত : সংবেদনশীল ব্যবহারকারীর ডেটা ডিভাইসে থেকে যায়, ব্রাউজার ছেড়ে যাওয়ার প্রয়োজন নেই।
- অফলাইন : অ্যাপ্লিকেশনগুলি AI ক্ষমতাগুলি অ্যাক্সেস করতে পারে, এমনকি ইন্টারনেট সংযোগ ছাড়াই৷
- পারফরম্যান্ট : হার্ডওয়্যার ত্বরণের জন্য ধন্যবাদ, এই APIগুলি দুর্দান্ত পারফরম্যান্স সরবরাহ করে।
প্রতিটি অন্তর্নির্মিত AI API-এর জন্য কোড নমুনাগুলি দেখুন, তাদের স্থিতির একটি আপডেট পান এবং দেখুন কোন কোম্পানিগুলি এই প্রযুক্তি প্রয়োগ করছে৷
মাল্টিমডাল এপিআই
আমরা একেবারে নতুন মাল্টিমোডাল এপিআই নিয়ে কাজ করছি। এর মানে আপনি জেমিনি ন্যানোকে ভিজ্যুয়াল সামগ্রীতে "দেখেন" বা অডিও সামগ্রীতে "শুনেন" সম্পর্কে জিজ্ঞাসা করতে পারেন৷ উদাহরণস্বরূপ, একটি ব্লগ প্ল্যাটফর্মে আপলোড করা চিত্রগুলিতে বিকল্প পাঠ্যের জন্য পরামর্শ পান, যা ব্যবহারকারীরা পরিমার্জন এবং পরিবর্তন করতে পারে৷ অথবা, আপনি জেমিনি ন্যানোকে পডকাস্টের বর্ণনা বা প্রতিলিপি লিখতে বলতে পারেন।
হাইব্রিড এআই
ক্লায়েন্ট-সাইড এআই-এর সাথে ডেভেলপারদের একটি চ্যালেঞ্জ হল যে সমস্ত প্ল্যাটফর্ম এবং ব্রাউজার ডিভাইসে মডেল চালানোর জন্য হার্ডওয়্যার প্রয়োজনীয়তা পূরণ করে না। Gemini এবং Firebase Firebase ওয়েব SDK তৈরি করতে অংশীদারিত্ব করেছে যাতে যখন ক্লায়েন্ট-সাইড বাস্তবায়ন অনুপলব্ধ থাকে, আপনি একটি সার্ভারে জেমিনি ন্যানোতে ফিরে যেতে পারেন৷
আপনার সঙ্গে কাজ
বিল্ট-ইন AI API-তে অনেক ডেভেলপারের সাথে কাজ করতে পেরে আমরা খুবই আনন্দিত। আপনাকে ছাড়া আমাদের প্রচেষ্টা সম্ভব নয়।
- প্রারম্ভিক পূর্বরূপ প্রোগ্রাম : 16,000 টিরও বেশি বিকাশকারী EPP-এ যোগদান করেছেন, নতুন API পরীক্ষা করছেন, নতুন ব্যবহারের ক্ষেত্রে আবিষ্কার করছেন এবং ওয়েবের জন্য আরও ভাল AI তৈরি করতে প্রতিক্রিয়া প্রদান করছেন৷
- হ্যাকাথন : আমরা দুটি হ্যাকাথন হোস্ট করেছি, এবং আপনি কিছু অবিশ্বাস্য ওয়েবসাইট এবং এক্সটেনশন তৈরি করেছেন ।
তোমার কাজ শেষ হয়নি। আপনার প্রতিক্রিয়া শেয়ার করতে থাকুন, নতুন বিল্ট-ইন API পরীক্ষা করে দেখুন, এবং আমরা পুনরাবৃত্তি করতে থাকব। এমনকি আপনি W3C-এর ওয়েব মেশিন লার্নিং কমিউনিটি গ্রুপে যোগ দিয়ে এই APIগুলিকে মানসম্মত করতে সাহায্য করতে পারেন৷
আপনার ব্রাউজারে Gemini সহ Chrome এক্সটেনশনের ভবিষ্যত
গত দুই বছরে এআই-চালিত এক্সটেনশনের সংখ্যা দ্বিগুণ হয়েছে। আসলে, Chrome ওয়েব স্টোর থেকে ইনস্টল করা সমস্ত এক্সটেনশনের 10% এআই ব্যবহার করে। এই আলোচনায়, সেবাস্টিয়ান বেঞ্জ কেন ক্রোম এক্সটেনশন এবং জেমিনি এত শক্তিশালী সংমিশ্রণের জন্য ব্যবহারিক উদাহরণ দিয়েছেন।
Chrome-এর সদ্য চালু হওয়া প্রম্পট API ব্যবহার করে ক্লায়েন্টের ওয়েবসাইটগুলি থেকে ডেটা বের করে এবং প্রক্রিয়াকরণ করে আপনি কীভাবে ব্রাউজারটিকে আরও সহায়ক করতে পারেন তার উদাহরণগুলি।
অডিও এবং ছবিগুলিকে ব্যবহারকারীদের কাছে আরও অ্যাক্সেসযোগ্য করে তুলতে Chrome এক্সটেনশনগুলিতে Chrome এর প্রম্পটিং API-এর নতুন মাল্টিমোডাল ক্ষমতার সম্ভাব্যতা প্রদর্শন করে৷
কিভাবে Google DeepMind এর Project Mariner একটি পূর্ণ-বিকশিত ব্রাউজার এজেন্ট তৈরি করতে ক্রোম এক্সটেনশন এবং সর্বশেষ জেমিনি ক্লাউড এপিআই ব্যবহার করে তা ব্যাখ্যা করে ব্রাউজিংয়ের ভবিষ্যত দেখে নেওয়ার জন্য৷
নতুন ব্রাউজিং অভিজ্ঞতা তৈরি করতে এবং ব্রাউজারটিকে আরও সহায়ক করতে ক্লাউডে বা ক্রোম এক্সটেনশনের ব্রাউজারে জেমিনি ব্যবহারের সম্ভাবনা অন্বেষণ করুন৷
ওয়েব এআই বাস্তব জগতে কেস এবং কৌশল ব্যবহার করে
ইউরিকো হিরোটা এবং স্বেথা গোপালকৃষ্ণান তাদের ব্যবসা এবং ব্যবহারকারীর অভিজ্ঞতা উন্নত করতে ওয়েবে AI ব্যবহার করে এমন কোম্পানিগুলির বাস্তব-বিশ্বের উদাহরণ তুলে ধরেছেন৷ তাদের সমাধান ক্লায়েন্ট-সাইড মডেল, সার্ভার-সাইড বা হাইব্রিড সলিউশন ব্যবহার করে কিনা, এই মুহূর্তে আপনি আপনার ব্যবহারকারীদের জন্য উপলব্ধ করা আকর্ষণীয় নতুন ফাংশন এবং বৈশিষ্ট্যগুলি গুরুত্বপূর্ণ৷
বিলিবিলি তাদের ভিডিও স্ট্রীমগুলিকে একটি নতুন বৈশিষ্ট্যের সাথে আরও আকর্ষণীয় করে তুলেছে: বুলেট-স্ক্রিন মন্তব্য । তারা ভিডিওতে রিয়েল-টাইম ব্যবহারকারীর মন্তব্য অফার করে, স্পিকারের পিছনে রেন্ডার করা হয়। এটি করার জন্য, তারা ইমেজ সেগমেন্টেশন ব্যবহার করে, একটি ভালভাবে বোঝা মেশিন লার্নিং ধারণা। ফলস্বরূপ, সেশনের সময়কাল 30% বেড়েছে! টোকোপিডিয়া আপলোড করা ফটোগুলির গুণমান মূল্যায়নের জন্য একটি মুখ সনাক্তকরণ মডেল ব্যবহার করে তাদের বিক্রেতা যাচাইকরণ প্রক্রিয়ায় ঘর্ষণ কমিয়েছে। ফলস্বরূপ, তারা প্রায় 70% ম্যানুয়াল অনুমোদন কমিয়েছে।
দৃষ্টি ন্যানি, সেরিব্রাল ভিজ্যুয়াল ইমপেয়ারমেন্ট (CVI) শিশুদের জন্য একটি ওয়েব প্ল্যাটফর্ম, এআই-চালিত দৃষ্টি উদ্দীপনা কার্যক্রম প্রদান করে। তারা হ্যান্ড ল্যান্ডমার্ক সনাক্তকরণ মডেল সহ একাধিক মিডিয়াপাইপ লাইব্রেরি ব্যবহার করে, যা একটি চিত্র, ভিডিও বা রিয়েল-টাইমে হাতের মূল পয়েন্টগুলি সনাক্ত করে। 50 জন শিশুর সাথে একজন পাইলট দেখিয়েছেন যে ভিশন ন্যানি ম্যানুয়াল ভিজ্যুয়াল স্টিমুলেশন ক্রিয়াকলাপের চেয়ে 5 গুণ দ্রুত প্রতিক্রিয়া প্রদান করেছেন। থেরাপিস্টরা ম্যানুয়াল সেটআপ সরিয়ে প্রতি সেশনে গড়ে তিন ঘন্টা সাশ্রয় করার রিপোর্ট করেছেন।
Google Meet-এ AI দ্বারা সক্ষম করা বেশ কিছু বৈশিষ্ট্য রয়েছে, আলোর উন্নতি থেকে শুরু করে অস্পষ্টতা এবং অস্পষ্ট ভিডিও কমানো পর্যন্ত। সবচেয়ে বড় চ্যালেঞ্জ হল এই বৈশিষ্ট্যগুলিকে রিয়েল-টাইমে কাজ করতে হবে। সেখানেই WebAssembly (Wasm) আসে, কম্পিউটারের CPU-এর সম্পূর্ণ শক্তিতে ট্যাপ করতে এবং রিয়েল-টাইম ভিডিও প্রক্রিয়াকরণ সক্ষম করতে।
এগুলি ওয়েবে ঘটছে এআই-এর কয়েকটি বাস্তব-বিশ্বের উদাহরণ। অন্যান্য বেশ কয়েকটি কোম্পানি বিল্ট-ইন AI API নিয়ে পরীক্ষা-নিরীক্ষা করেছে, যার মধ্যে কিছু কেস স্টাডিতে তাদের কাজ শেয়ার করেছে।
ক্লায়েন্ট-সাইড ওয়েব এআই এজেন্টরা স্মার্ট ভবিষ্যত ব্যবহারকারীর অভিজ্ঞতা তৈরি করতে
জেসন মেইস ইন্টারনেটের ভবিষ্যত: ওয়েব এআই এজেন্টদের মধ্য দিয়ে হেঁটেছেন। ওয়েবের একটি এজেন্টিক ভবিষ্যত রয়েছে, AI ক্ষমতাগুলি সরাসরি ব্রাউজারে নিয়ে আসে, আপনার পক্ষে দরকারী কাজ সম্পাদন করতে, বড় ভাষা মডেলের (LLMs) ক্ষমতার বাইরে।
একটি ক্লায়েন্ট-সাইড পদ্ধতির সাথে, উন্নত গোপনীয়তা, কম বিলম্বিতা এবং সম্ভাব্য উল্লেখযোগ্য খরচ সঞ্চয় রয়েছে। এজেন্ট আপনাকে আপনার বিদ্যমান ওয়েবসাইট আপগ্রেড করার অনুমতি দেয়, একজন ব্যবহারকারীর জন্য স্বায়ত্তশাসিতভাবে কাজগুলি সম্পাদন করতে, গতিশীলভাবে এক্সপোজড টুলস নির্বাচন এবং ব্যবহার করে-সম্ভবত একটি লুপে-এজেন্টকে সম্ভাব্য জটিল বা বহু-পদক্ষেপের কাজগুলি সম্পূর্ণ করার অনুমতি দেয়।
এজেন্ট করতে পারেন:
- সাব-টাস্কের পরিকল্পনা করুন এবং বিভক্ত করুন , বহু-পদক্ষেপ পরিকল্পনার মাধ্যমে আরও জটিল সমস্যাগুলি পরিচালনা করুন যাতে কাজটিকে সম্পূর্ণ করার জন্য যৌক্তিক ধাপে ভাগ করা যায়।
- সর্বোত্তম সরঞ্জামগুলি নির্বাচন করুন , তা ফাংশন, API ব্যবহার, বা বর্ধিত ভাষা মডেলের বেস জ্ঞানের ডেটাস্টোর অ্যাক্সেস হোক না কেন, তারপরে বাইরের বিশ্বে ক্রিয়া সম্পাদন করুন৷
- এজেন্ট বা বাহ্যিক সরঞ্জাম থেকে পূর্বের আউটপুটগুলির উপর ভিত্তি করে প্রসঙ্গ-ভিত্তিক মেমরি ধরে রাখুন । স্বল্প-মেয়াদী মেমরি মডেলের প্রসঙ্গ উইন্ডোর আকার পর্যন্ত প্রসঙ্গ ইতিহাসের FIFO বাফারের মতো কাজ করে, বনাম দীর্ঘমেয়াদী মেমরি যেখানে একটি ভেক্টর ডাটাবেস পূর্বের কথোপকথন সেশন বা অন্যান্য ডেটা উত্স থেকে প্রয়োজন অনুসারে তথ্য সংরক্ষণ করতে ব্যবহার করা যেতে পারে।
ওয়েব এআই এজেন্ট জাভাস্ক্রিপ্টে বিদ্যমান ওয়েব প্রযুক্তির সাথে একীভূত করার জন্য ডিজাইন করা হয়েছে। শেষ পর্যন্ত, ব্রাউজারে সেরা মডেল চালানোর জন্য আমাদের হার্ডওয়্যারকে ত্বরান্বিত করা গুরুত্বপূর্ণ। ভবিষ্যতের দিকে তাকিয়ে, WebNN-এর মতো প্রযুক্তি CPUs, GPUs, এবং NPUs জুড়ে মডেল এক্সিকিউশনকে অপ্টিমাইজ করার ক্ষেত্রে মুখ্য ভূমিকা পালন করবে। ছোট এলএলএম-এর দিকে প্রবণতা এবং ক্রমাগত অগ্রগতির সাথে, এটি কেবল ভবিষ্যতে আরও শক্তিশালী হয়ে উঠবে।
কৌশলগত ক্লাউড কলের সাথে ডিভাইসে প্রক্রিয়াকরণের সমন্বয়ে একটি হাইব্রিড পদ্ধতির ব্যবহার বিবেচনা করুন, যাতে আপনি এখনই ব্রাউজারে বুদ্ধিমান, প্রতিক্রিয়াশীল এবং ব্যক্তিগতকৃত ব্যবহারকারীর অভিজ্ঞতা তৈরি করতে পারেন। শীঘ্রই, ওয়েব এআই পদ্ধতিতে বিনিয়োগ থেকে আপনার রিটার্ন পরিশোধ করা উচিত কারণ ডিভাইসগুলি এলএলএম চালানোর ক্ষেত্রে আরও সক্ষম হয়ে উঠেছে।
Google I/O 2025-এ দেখুন
আমরা ওয়েব ডেভেলপারদের জন্য নিবেদিত একটি প্লেলিস্ট সহ Google I/O 2025 এর জন্য সমস্ত আলোচনা প্রকাশ করেছি। io.google/2025 এ আরও দেখুন।