31 فروردین 1404 مطالعه 8 دقیقه

پیشرفت‌های Meta FAIR در هوش مصنوعی

دسته بندی ها:

آنچه خواهید خواند

معرفی پنج انتشار عمده Meta FAIR
پنج انتشار Meta FAIR کدامند؟
کلام آخر

معرفی پنج انتشار عمده Meta FAIR

تیم تحقیقات بنیادی هوش مصنوعی Meta FAIR پنج پروژه را معرفی کرده است که به پیشرفت‌های هوش ماشین پیشرفته (AMI) شرکت کمک میکند. آخرین انتشارهای Meta به شدت بر بهبود ادراک هوش مصنوعی متمرکز است، توانایی ماشین‌ها در پردازش و تفسیر اطلاعات حسی به همراه پیشرفت‌ها در مدل‌سازی زبان، رباتیک و عوامل هوش مصنوعی همکاری‌کننده.

هدفون جی بی ال مدل Quantum 400

مشاهده و خرید

متا اظهار کرده است که هدف آن ایجاد ماشین‌هایی است که قادر به کسب، پردازش و تفسیر اطلاعات حسی درباره جهان اطراف ما هستند و میتوانند از این اطلاعات برای تصمیم‌گیری با هوش و سرعت شبیه به انسان استفاده کنند. پنج انتشار جدید نمایانگر تلاش‌های متنوع اما به‌ هم‌پیوسته‌ای به سمت دستیابی به این هدف بلندپروازانه است.

پنج انتشار Meta FAIR کدامند؟

1. Perception Encoder: متا دید هوش مصنوعی را تیزتر میکند

هسته انتشارهای جدید، Encoder ادراکی است که به عنوان یک انکودر بینایی بزرگ‌مقیاس توصیف شده و برای تسلط بر وظایف مختلف تصویر و ویدیو طراحی شده است. انکودرهای بینایی به عنوان چشم‌ها برای سیستم‌های هوش مصنوعی عمل میکنند و به آن‌ها اجازه میدهند تا داده‌های بصری را درک کنند.

متا بر چالش فزاینده ساخت انکودرهایی که به نیازهای هوش مصنوعی پیشرفته پاسخ میدهند، تأکید میکند و به قابلیت‌هایی نیاز دارد که بینایی و زبان را پل بزند، هم تصاویر و هم ویدیوها را به‌ طور مؤثر مدیریت کند و در شرایط دشوار، از جمله حملات احتمالی مقاوم بماند.

به گفته Meta، انکودر ایده‌آل باید بتواند دامنه وسیعی از مفاهیم را شناسایی کند و جزئیات ظریف را تفکیک کند. به عنوان مثال مشاهده یک ماهی که در زیر کف اقیانوس پنهان شده است یا شناسایی یک گنجشک طلایی کوچک در پس‌زمینه یک تصویر.

Meta ادعا میکند که Perception Encoder عملکرد فوق‌العاده‌ای در طبقه‌بندی و بازیابی تصویر و ویدیو بدون نمونه اولیه را بدست می‌آورد و تمامی مدل‌های موجود در این زمینه را پشت سر میگذارد. علاوه بر این، نقاط قوت ادراکی آن به گفته Meta به خوبی به وظایف زبان منتقل میشود.

زمانی که با یک مدل زبان بزرگ (LLM) هم‌راستا شود، این انکودر در زمینه‌هایی مانند پاسخ به سوالات بصری، زیرنویس‌نویسی، درک اسناد و پیوند (ارتباط متن با مناطق خاص تصویر) برتری بیشتری نسبت به سایر انکودرهای بینایی از خود نشان میدهد. همچنین طبق گزارش‌ها، عملکرد در وظایف که معمولاً برای LLMها دشوار است، مانند درک روابط فضایی (مثلاً اگر یک شی پشت شی دیگری باشد) یا حرکت دوربین نسبت به یک شی را تقویت میکند.

2. مدل زبان ادراکی (PLM): تحقیق باز در زبان-بینایی

مدل زبان ادراکی (PLM) یک مدل زبان-بینایی باز و قابل بازتولید است که به کارهای پیچیده شناسایی بصری میپردازد. PLM با استفاده از داده‌های سنتتیک بزرگ‌مقیاس و ترکیب آن با مجموعه‌داده‌های باز زبان-بینایی آموزش دیده است، به‌ طور مشخص بدون استخراج دانش از مدل‌های خارجی مالکیتی.

با شناسایی شکاف‌ها در داده‌های موجود در درک ویدیو، تیم FAIR دو و نیم میلیون نمونه جدید با برچسب انسانی جمع‌آوری کرده که به سؤال‌های دقیق و شناسایی زیرنویس‌های فضایی-زمانی معطوف شده‌اند. Meta ادعا میکند که این بزرگترین مجموعه‌داده از نوع خود تا به امروز است. PLM در نسخه‌های 1، 3 و 8 میلیارد پارامتر ارائه میشود و نیازهای تحقیقاتی دانشگاهی را که به شفافیت نیاز دارند، برآورده میکند.

به همراه مدل‌ها، Meta نیز PLM-VideoBench، یک معیار جدید به‌ خصوص برای آزمایش قابلیت‌هایی را که غالباً توسط معیارهای موجود نادیده گرفته میشود، به ویژه درک فعالیت دقیق و استدلال مبتنی بر زمان-فضا را ارائه میدهد. Meta امیدوار است که ترکیب مدل‌های باز، مجموعه داده بزرگ و معیاری چالش‌برانگیز جامعه کد باز را توانمند سازد.

3. Meta Locate 3D: فراهم آوردن آگاهی موقعیتی برای ربات‌ها

Meta Locate 3D پلی بین دستورات زبانی و عمل فیزیکی است. این مدل به ربات‌ها اجازه میدهد تا با دقت اشیاء را در یک محیط سه‌بعدی بر اساس پرس و جوهای طبیعی زبان با واژگان باز محلی‌سازی کنند.

Meta Locate 3D به‌ طور مستقیم نقاط 3D را از حسگرهای RGB-D (مانند آنهایی که در برخی ربات‌ها یا دوربین‌های عمق‌سنجی وجود دارند) پردازش میکند. هنگامی که یک درخواست متنی مثل «گلدان گل نزدیک کنسول تلویزیون» داده میشود، سیستم روابط فضایی و زمینه را در نظر میگیرد تا محل صحیح نمونه شیء را پیدا کند و آن را از «گلدان روی میز» تمییز دهد.

سیستم شامل سه بخش اصلی است: یک مرحله پیش‌پردازش که ویژگی‌های 2D را به نقاط طبیعت‌سازی شده 3D تبدیل میکند، انکودر 3D-JEPA (مدل پیش‌آموزش دیده‌ای که نمایشی از جهان سه‌بعدی زمینه‌ای را خلق میکند)، و دکودر Locate 3D که نمای 3D و درخواست زبانی را گرفته و جعبه‌های مرزی و ماسک‌ها برای اشیاء مشخص شده را خروجی میدهد.

به همراه مدل، Meta یک مجموعه داده جدید بزرگ برای محلی‌سازی اشیاء بر اساس عبارات ارجاعی منتشر میکند. این شامل 130،000 برچسب زبانی در 1،346 صحنه از مجموعه داده‌های ARKitScenes ،ScanNet و ++ScanNet است که به‌ طور مؤثری داده‌های برچسب‌گذاری شده موجود در این حوزه را دو برابر میکند. متا این فناوری را برای توسعه سیستم‌های رباتیکی توانمندتر، از جمله پروژه ربات PARTNR خود، اساسی میداند و قابلیت تعامل و همکاری انسانی-رباتی طبیعی‌تر را فراهم میکند.

4. Dynamic Byte Latent Transformer: مدل‌سازی زبان کارآمد و مقاوم

پس از تحقیقات منتشر شده در اواخر سال 2024، Meta اکنون مدل 8 میلیارد پارامتری Dynamic Byte Latent Transformer را منتشر میکند. این معماری از مدل‌های زبان مبتنی بر توکنیزه‌سازی سنتی فاصله میگیرد و به جای آن در سطح بایت عمل میکند. متا ادعا میکند که این رویکرد در مقیاس مشابهی عملکرد قابل مقایسه‌ای را فراهم میکند در حالی که بهبودهای قابل‌توجهی در کارایی استنباط و مقاومت ارائه میدهد.

مدل‌های LLM سنتی متن را به توکن‌ها تقسیم میکنند که ممکن است در برابر اشتباهات تایپی، کلمات جدید یا ورودی‌های خصمانه به مشکل برخورد کنند. مدل‌های سطح بایت، بایت‌های خام را پردازش میکنند که ممکن است مقاومت بیشتری ارائه دهند.

Meta اعلام کرده است که Dynamic Byte Latent Transformer در برابر مدل‌های مبتنی بر توکنیزر، در زمینه‌های مختلف عملکرد بهتری دارد، با میانگین برتری مقاومتی برابر با +7 امتیاز و به حداکثر +55 امتیاز در وظایفی از معیار CUTE درک توکن میرسد.

5. Collaborative Reasoner: متا به پیشرفت ایجنت هوش مصنوعی اجتماعی-هوشمند میپردازد

آخرین انتشار، Collaborative Reasoner، به چالش پیچیده ایجاد ایجنت های هوش مصنوعی که بتوانند به‌ طور مؤثر با انسان‌ها یا سایر هوش‌های مصنوعی همکاری کنند، میپردازد. متا اشاره میکند که همکاری انسانی معمولاً نتایج بهتری به دست میدهد و هدف آن است که قابلیت‌های مشابهی برای هوش مصنوعی برای کارهایی مانند کمک به انجام تکالیف یا آماده‌سازی برای مصاحبه‌های شغلی فراهم آورد.

چنین همکاری نیاز به نه تنها حل مسائل، بلکه مهارت‌های اجتماعی مانند ارتباط، همدلی، ارائه بازخورد و درک حالت‌های ذهنی دیگران (نظریه ذهن) دارد که غالباً در طول چندین نوبت گفتگو انجام میشود. روش‌های آموزش و ارزیابی کنونی LLM معمولاً این جنبه‌های اجتماعی و همکاری‌محور را نادیده میگیرند. علاوه بر این، جمع‌آوری داده‌های مربوط به گفتگو هزینه‌بر و دشوار است.

Collaborative Reasoner چارچوبی برای ارزیابی و بهبود این مهارت‌ها فراهم میکند. این شامل کارهای هدفمند است که نیاز به استدلال چند مرحله‌ای که از طریق گفتگوی بین دو ایجنت به دست می‌آید، دارد. این چارچوب توانایی‌هایی را مانند مخالفت به‌ طور سازنده، قانع کردن یک شریک و رسیدن به بهترین راه‌حل مشترک آزمایش میکند.

ارزیابی‌های Meta نشان داده است که مدل‌های کنونی قادر به بهره‌مندی پایدار از همکاری برای بهتر شدن نتایج نیستند. برای رسیدگی به این موضوع، آن‌ها یک تکنیک خودبهبودی استفاده کرده‌اند که در آن یک ایجنت LLM با خودش همکاری میکند.

کلام آخر

این پنج انتشار تأکید بر سرمایه‌گذاری مداوم و سنگین Meta در تحقیقات بنیادی هوش مصنوعی است، به‌ ویژه بر روی ساختارهایی برای ماشین‌هایی که میتوانند به شکل انسانی‌تر ادراک کنند و با دنیا تعامل داشته باشند.

هدفون جی بی ال مدل Quantum 100

4,960,000 تومان مشاهده و خرید

پنج انتشار عمده تیم تحقیقات بنیادی هوش مصنوعی Meta (FAIR) نمایانگر تلاش‌های مستمر این شرکت در جهت توسعه هوش مصنوعی پیشرفته است که میتواند مانند انسان‌ها درک و تعامل داشته باشد. این پیشرفت‌ها نه‌ تنها قابلیت ماشین‌ها را در پردازش و تفسیر اطلاعات حسی افزایش میدهد، بلکه به بهبود همکاری‌ها و تعاملات انسانی-رباتی نیز کمک میکند، که به واسطه آن‌ها میتوان به نتایج بهتری در زمینه‌های مختلف دست یافت.