به نقل از مهتاب من
مدل Gemini 2.5 Pro گوگل در یک آزمایش زنده توانست بازی کلاسیک Pokémon Blue را به آخر رساند و همین اتفاق مجدد او گفت و گو توانایی عاملهای هوش مصنوعی در برنامه ریزی طویل زمان را داغ کرد. این اجرا در قالب پروژه Twitch با نام Gemini Plays Pokémon انجام شد و توسط مهندسی جدا گانه به نام جوئل زد (Joel Z) اداره می شد.
به نقل از رسانه اخبار فناوری تکنا، اهمیت ماجرا فقط در همه کردن یک بازی قدیمی نیست. Pokémon Blue برای انسانها بازی سختی محسوب نمی شود، اما برای یک مدل زبانی، عبور از شهرها، حل مسیرها، مدیریت نبردها، نگهداری هدفهای قبلی و تصمیم گیری مرحله به مرحله، آزمونی جدی برای حافظه کاری، فهمیدن عکس و برنامه ریزی چند مرحله ای است.
ساندار پیچای (Sundar Pichai)، مدیرعامل گوگل، بعد از آخر بازی در X این پیروزی را بازنشر کرد و از سازنده پروژه و تماشاگران آن سپاس کرد. همین عکس العمل علتشد اجرای Gemini 2.5 Pro از یک توانایی سرگرم کننده اینترنتی به نشانه ای تبلیغاتی برای تواناییهای عامل محور مدلهای تازه گوگل تبدیل شود.
یقیناً این پیروزی را نباید همانند بازی کردن مستقیم یک انسان با دسته کنترل تفسیر کرد. مدل، خود بازی را به شکل خام و انسانی توانایی نمی کرد، بلکه عکس صفحه و لایه هایی از اطلاعات کمکی را دریافت می کرد و سپس تصمیم بعدی را نظر می داد. این تصمیمها بعدا به فرمانهای واقعی داخل بازی تبدیل می شدند.
پروژه Gemini Plays Pokémon با مداخله محدود گسترش دهنده همراه می بود. جوئل زد حرف های بعضی اوقات برای بهبود استدلال و کارکرد سامانه داخل عمل شده، اما تلاش کرده این دخالتها مسیر تصمیم گیری مدل را به طور مستقیم جانشین نکند. همین مسئله نشان می دهد این دستاورد زیاد تر یک آزمایش عامل هوشمند با ابزارهای کمکی است تا خودمختاری کامل.
رقابت با آنتروپیک هم به برجسته شدن این خبر پشتیبانی کرد. آنتروپیک پیشتر پیشرفت Claude در Pokémon Red را به گفتن نمونه ای از extended thinking و agent training نمایش داده می بود. با این حال، قیاس مستقیم Gemini و Claude ساده نیست، چون هر پروژه از agent harness متفاوت، اطلاعات ورودی متفاوت و مقدار حمایتفنی متفاوت منفعت گیری می کند.
خود گوگل پیش از این Gemini 2.5 Pro را مدل تفکر محور خود برای حل مسائل پیچیده معارفه کرده می بود. مطابق توضیح رسمی، این مدل برای وظایفی همانند کدنویسی، استدلال، ریاضی و فهمیدن چند وجهی گسترش یافته است. تکمیل Pokémon Blue به همین روایت پشتیبانی می کند، چون بازی محیطی متوالی، تصویری و پر از تصمیمهای وابسته به قبل دارد.
با این حال، پیروزی در Pokémon Blue تا این مدت معیار قطعی هوش عمومی نیست. یک مدل می تواند در محیطی با ابزار کمکی، حافظه بیرونی و راهنمای ساختار یافته کارکرد دیدنی داشته باشد، اما هم چنان در کارهای روزمره، تعامل آزاد، تصمیم گیری اخلاقی یا فهمیدن مبهم جهان واقعی اشتباه کند. قیمت این آزمایش زیاد تر در نمایش مسیر عاملهای آینده است.
از زاویه کاربر عادی، جذابیت ماجرا در قابل فهمیدن بودن آن است. تعداد بسیاری از مردم بهتر می توانند پیشرفت یک مدل را از طریق عبور از Lavender Town، ناکامی دادن Gym Leader ها یا مدیریت نبردها ببینند تا از طریق جدولهای بنچمارک. همین ویژگی علتمی شود بازیهای قدیمی به ویترین عمومی توانایی عاملهای AI تبدیل شوند.
دسته بندی مطالب
اخبار کسب وکارها





