آنچه خواهید خواند
معرفی پنج انتشار عمده Meta FAIR
تیم تحقیقات بنیادی هوش مصنوعی Meta FAIR پنج پروژه را معرفی کرده است که به پیشرفتهای هوش ماشین پیشرفته (AMI) شرکت کمک میکند. آخرین انتشارهای Meta به شدت بر بهبود ادراک هوش مصنوعی متمرکز است، توانایی ماشینها در پردازش و تفسیر اطلاعات حسی به همراه پیشرفتها در مدلسازی زبان، رباتیک و عوامل هوش مصنوعی همکاریکننده.
متا اظهار کرده است که هدف آن ایجاد ماشینهایی است که قادر به کسب، پردازش و تفسیر اطلاعات حسی درباره جهان اطراف ما هستند و میتوانند از این اطلاعات برای تصمیمگیری با هوش و سرعت شبیه به انسان استفاده کنند. پنج انتشار جدید نمایانگر تلاشهای متنوع اما به همپیوستهای به سمت دستیابی به این هدف بلندپروازانه است.
پنج انتشار Meta FAIR کدامند؟
1. Perception Encoder: متا دید هوش مصنوعی را تیزتر میکند
هسته انتشارهای جدید، Encoder ادراکی است که به عنوان یک انکودر بینایی بزرگمقیاس توصیف شده و برای تسلط بر وظایف مختلف تصویر و ویدیو طراحی شده است. انکودرهای بینایی به عنوان چشمها برای سیستمهای هوش مصنوعی عمل میکنند و به آنها اجازه میدهند تا دادههای بصری را درک کنند.
متا بر چالش فزاینده ساخت انکودرهایی که به نیازهای هوش مصنوعی پیشرفته پاسخ میدهند، تأکید میکند و به قابلیتهایی نیاز دارد که بینایی و زبان را پل بزند، هم تصاویر و هم ویدیوها را به طور مؤثر مدیریت کند و در شرایط دشوار، از جمله حملات احتمالی مقاوم بماند.
به گفته Meta، انکودر ایدهآل باید بتواند دامنه وسیعی از مفاهیم را شناسایی کند و جزئیات ظریف را تفکیک کند. به عنوان مثال مشاهده یک ماهی که در زیر کف اقیانوس پنهان شده است یا شناسایی یک گنجشک طلایی کوچک در پسزمینه یک تصویر.
Meta ادعا میکند که Perception Encoder عملکرد فوقالعادهای در طبقهبندی و بازیابی تصویر و ویدیو بدون نمونه اولیه را بدست میآورد و تمامی مدلهای موجود در این زمینه را پشت سر میگذارد. علاوه بر این، نقاط قوت ادراکی آن به گفته Meta به خوبی به وظایف زبان منتقل میشود.
زمانی که با یک مدل زبان بزرگ (LLM) همراستا شود، این انکودر در زمینههایی مانند پاسخ به سوالات بصری، زیرنویسنویسی، درک اسناد و پیوند (ارتباط متن با مناطق خاص تصویر) برتری بیشتری نسبت به سایر انکودرهای بینایی از خود نشان میدهد. همچنین طبق گزارشها، عملکرد در وظایف که معمولاً برای LLMها دشوار است، مانند درک روابط فضایی (مثلاً اگر یک شی پشت شی دیگری باشد) یا حرکت دوربین نسبت به یک شی را تقویت میکند.
2. مدل زبان ادراکی (PLM): تحقیق باز در زبان-بینایی
مدل زبان ادراکی (PLM) یک مدل زبان-بینایی باز و قابل بازتولید است که به کارهای پیچیده شناسایی بصری میپردازد. PLM با استفاده از دادههای سنتتیک بزرگمقیاس و ترکیب آن با مجموعهدادههای باز زبان-بینایی آموزش دیده است، به طور مشخص بدون استخراج دانش از مدلهای خارجی مالکیتی.
با شناسایی شکافها در دادههای موجود در درک ویدیو، تیم FAIR دو و نیم میلیون نمونه جدید با برچسب انسانی جمعآوری کرده که به سؤالهای دقیق و شناسایی زیرنویسهای فضایی-زمانی معطوف شدهاند. Meta ادعا میکند که این بزرگترین مجموعهداده از نوع خود تا به امروز است. PLM در نسخههای 1، 3 و 8 میلیارد پارامتر ارائه میشود و نیازهای تحقیقاتی دانشگاهی را که به شفافیت نیاز دارند، برآورده میکند.
به همراه مدلها، Meta نیز PLM-VideoBench، یک معیار جدید به خصوص برای آزمایش قابلیتهایی را که غالباً توسط معیارهای موجود نادیده گرفته میشود، به ویژه درک فعالیت دقیق و استدلال مبتنی بر زمان-فضا را ارائه میدهد. Meta امیدوار است که ترکیب مدلهای باز، مجموعه داده بزرگ و معیاری چالشبرانگیز جامعه کد باز را توانمند سازد.
3. Meta Locate 3D: فراهم آوردن آگاهی موقعیتی برای رباتها
Meta Locate 3D پلی بین دستورات زبانی و عمل فیزیکی است. این مدل به رباتها اجازه میدهد تا با دقت اشیاء را در یک محیط سهبعدی بر اساس پرس و جوهای طبیعی زبان با واژگان باز محلیسازی کنند.
Meta Locate 3D به طور مستقیم نقاط 3D را از حسگرهای RGB-D (مانند آنهایی که در برخی رباتها یا دوربینهای عمقسنجی وجود دارند) پردازش میکند. هنگامی که یک درخواست متنی مثل «گلدان گل نزدیک کنسول تلویزیون» داده میشود، سیستم روابط فضایی و زمینه را در نظر میگیرد تا محل صحیح نمونه شیء را پیدا کند و آن را از «گلدان روی میز» تمییز دهد.
سیستم شامل سه بخش اصلی است: یک مرحله پیشپردازش که ویژگیهای 2D را به نقاط طبیعتسازی شده 3D تبدیل میکند، انکودر 3D-JEPA (مدل پیشآموزش دیدهای که نمایشی از جهان سهبعدی زمینهای را خلق میکند)، و دکودر Locate 3D که نمای 3D و درخواست زبانی را گرفته و جعبههای مرزی و ماسکها برای اشیاء مشخص شده را خروجی میدهد.
به همراه مدل، Meta یک مجموعه داده جدید بزرگ برای محلیسازی اشیاء بر اساس عبارات ارجاعی منتشر میکند. این شامل 130،000 برچسب زبانی در 1،346 صحنه از مجموعه دادههای ARKitScenes ،ScanNet و ++ScanNet است که به طور مؤثری دادههای برچسبگذاری شده موجود در این حوزه را دو برابر میکند. متا این فناوری را برای توسعه سیستمهای رباتیکی توانمندتر، از جمله پروژه ربات PARTNR خود، اساسی میداند و قابلیت تعامل و همکاری انسانی-رباتی طبیعیتر را فراهم میکند.
4. Dynamic Byte Latent Transformer: مدلسازی زبان کارآمد و مقاوم
پس از تحقیقات منتشر شده در اواخر سال 2024، Meta اکنون مدل 8 میلیارد پارامتری Dynamic Byte Latent Transformer را منتشر میکند. این معماری از مدلهای زبان مبتنی بر توکنیزهسازی سنتی فاصله میگیرد و به جای آن در سطح بایت عمل میکند. متا ادعا میکند که این رویکرد در مقیاس مشابهی عملکرد قابل مقایسهای را فراهم میکند در حالی که بهبودهای قابلتوجهی در کارایی استنباط و مقاومت ارائه میدهد.
مدلهای LLM سنتی متن را به توکنها تقسیم میکنند که ممکن است در برابر اشتباهات تایپی، کلمات جدید یا ورودیهای خصمانه به مشکل برخورد کنند. مدلهای سطح بایت، بایتهای خام را پردازش میکنند که ممکن است مقاومت بیشتری ارائه دهند.
Meta اعلام کرده است که Dynamic Byte Latent Transformer در برابر مدلهای مبتنی بر توکنیزر، در زمینههای مختلف عملکرد بهتری دارد، با میانگین برتری مقاومتی برابر با +7 امتیاز و به حداکثر +55 امتیاز در وظایفی از معیار CUTE درک توکن میرسد.
5. Collaborative Reasoner: متا به پیشرفت ایجنت هوش مصنوعی اجتماعی-هوشمند میپردازد
آخرین انتشار، Collaborative Reasoner، به چالش پیچیده ایجاد ایجنت های هوش مصنوعی که بتوانند به طور مؤثر با انسانها یا سایر هوشهای مصنوعی همکاری کنند، میپردازد. متا اشاره میکند که همکاری انسانی معمولاً نتایج بهتری به دست میدهد و هدف آن است که قابلیتهای مشابهی برای هوش مصنوعی برای کارهایی مانند کمک به انجام تکالیف یا آمادهسازی برای مصاحبههای شغلی فراهم آورد.
چنین همکاری نیاز به نه تنها حل مسائل، بلکه مهارتهای اجتماعی مانند ارتباط، همدلی، ارائه بازخورد و درک حالتهای ذهنی دیگران (نظریه ذهن) دارد که غالباً در طول چندین نوبت گفتگو انجام میشود. روشهای آموزش و ارزیابی کنونی LLM معمولاً این جنبههای اجتماعی و همکاریمحور را نادیده میگیرند. علاوه بر این، جمعآوری دادههای مربوط به گفتگو هزینهبر و دشوار است.
Collaborative Reasoner چارچوبی برای ارزیابی و بهبود این مهارتها فراهم میکند. این شامل کارهای هدفمند است که نیاز به استدلال چند مرحلهای که از طریق گفتگوی بین دو ایجنت به دست میآید، دارد. این چارچوب تواناییهایی را مانند مخالفت به طور سازنده، قانع کردن یک شریک و رسیدن به بهترین راهحل مشترک آزمایش میکند.
ارزیابیهای Meta نشان داده است که مدلهای کنونی قادر به بهرهمندی پایدار از همکاری برای بهتر شدن نتایج نیستند. برای رسیدگی به این موضوع، آنها یک تکنیک خودبهبودی استفاده کردهاند که در آن یک ایجنت LLM با خودش همکاری میکند.
کلام آخر
این پنج انتشار تأکید بر سرمایهگذاری مداوم و سنگین Meta در تحقیقات بنیادی هوش مصنوعی است، به ویژه بر روی ساختارهایی برای ماشینهایی که میتوانند به شکل انسانیتر ادراک کنند و با دنیا تعامل داشته باشند.
پنج انتشار عمده تیم تحقیقات بنیادی هوش مصنوعی Meta (FAIR) نمایانگر تلاشهای مستمر این شرکت در جهت توسعه هوش مصنوعی پیشرفته است که میتواند مانند انسانها درک و تعامل داشته باشد. این پیشرفتها نه تنها قابلیت ماشینها را در پردازش و تفسیر اطلاعات حسی افزایش میدهد، بلکه به بهبود همکاریها و تعاملات انسانی-رباتی نیز کمک میکند، که به واسطه آنها میتوان به نتایج بهتری در زمینههای مختلف دست یافت.








پاسخگوی سوالات شما هستیم
دیدگاهی وجود ندارد!