آنچه خواهید خواند
هدفون هوش مصنوعی برای حل «مشکل مهمانی کوکتل»
برای حل مشکل رایج گفتگو در یک اتاق شلوغ که اغلب به «مشکل مهمانی کوکتل» منجر میشود، پژوهشگران دانشگاه واشنگتن یک هدفون هوش مصنوعی هوشمند توسعه دادهاند که بهطور فعال تمام مخاطبان کاربر را در یک محیط صوتی پر سروصدا جدا میکند. این هدفون از یک مدل هوش مصنوعی برای تشخیص ریتم مکالمه و یک مدل دیگر برای حذف صداهایی که از آن الگو پیروی نمیکند، به همراه سایر نویزهای پسزمینه ناخواسته، استفاده میکند. نمونه اولیه با استفاده از سختافزارهای موجود در بازار مانند هدفونهای نویزکنسلینگ و میکروفونهای دوگوشی ساخته شده و میتواند تنها با دو تا چهار ثانیه صدا، مخاطبان گفتگو را شناسایی کند.
عملکرد هوشمند با دو مدل هوش مصنوعی
این سیستم که «دستیار شنوایی پیشفعال» (proactive hearing assistants) نامگذاری شده، زمانی فعال میشود که کاربر هدفون شروع به صحبت میکند. از آن لحظه، یک مدل هوش مصنوعی با تحلیل «چه کسی چه زمانی صحبت کرد» و بررسی همپوشانی کم در تبادل کلام، شرکتکنندگان در گفتگو را ردیابی میکند.
سپس سیستم نتیجه را به مدل دوم ارسال میکند که صدای شرکتکنندگان را جدا کرده و صدای پاکسازیشده را برای کاربر پخش میکند. این سیستم به اندازهای سریع است که از تأخیر صوتی گیجکننده برای کاربر جلوگیری میکند و در حال حاضر میتواند علاوه بر صدای کاربر، صدای یک تا چهار مخاطب دیگر را مدیریت کند.
به گفته نویسنده ارشد این پژوهش، شیام گولاکوتا، استاد دانشکده علوم و مهندسی کامپیوتر پل جی. آلن در دانشگاه واشنگتن: «رویکردهای موجود برای شناسایی کسی که کاربر به او گوش میدهد، عمدتاً شامل الکترودهای کاشتهشده در مغز برای ردیابی توجه است. بینش ما این بود که وقتی با گروه خاصی از افراد صحبت میکنیم، گفتار ما بهطور طبیعی از یک ریتم نوبتی پیروی میکند. ما میتوانیم هوش مصنوعی را آموزش دهیم تا این ریتمها را تنها با استفاده از صدا و بدون نیاز به کاشت الکترود، پیشبینی و ردیابی کند.»
نتایج آزمایش و پروژههای پیشین
این تیم هدفون هوش مصنوعی خود را با ۱۱ شرکتکننده آزمایش کردند. شرکتکنندگان کیفیتهایی مانند نویز کنسلینگ و درک مطلب را با و بدون فیلتراسیون هوش مصنوعی ارزیابی کردند. در مجموع، این گروه به صدای فیلترشده بیش از دو برابر امتیاز مطلوبتری نسبت به صدای پایه دادند.
تیم گولاکوتا طی چند سال گذشته در حال آزمایش دستیارهای شنوایی مبتنی بر هوش مصنوعی بودهاند. آنها یک نمونه اولیه هدفون هوشمند ساختند که میتوانست صدای یک شخص را از میان جمعیت هنگامی که کاربر به او نگاه میکند، انتخاب کند و نمونه دیگری که با حذف تمام صداها در یک فاصله مشخص از کاربر، یک «حباب صوتی» ایجاد میکرد. گویلین هو، نویسنده اصلی این پژوهش میگوید: «تمام کارهایی که قبلاً انجام دادهایم، نیازمند این بود که کاربر بهصورت دستی یک گوینده خاص یا فاصلهای مشخص را برای شنیدن انتخاب کند، که این برای تجربهٔ کاربری ایدهآل نیست. آنچه ما نشان دادهایم، یک فناوری پیشفعال است؛ چیزی که نیت انسان را بهصورت غیرتهاجمی و خودکار استنتاج میکند.»
چالشها و آینده فناوری
هنوز کارهای زیادی برای بهبود این تجربه باقی مانده است. هرچه گفتگو پویاتر شود، احتمالاً سیستم با چالش بیشتری مواجه خواهد شد، زیرا ممکن است شرکتکنندگان همزمان با یکدیگر صحبت کند یا مونولوگهای طولانیتری داشته باشید. ورود و خروج افراد از گفتگو نیز مانع دیگری است، هرچند گولاکوتا از عملکرد خوب نمونه اولیه فعلی در این سناریوهای پیچیدهتر شگفتزده شده بود. نویسندگان همچنین اشاره میکنند که مدلها بر روی گفتگوهای انگلیسی، ماندارین و ژاپنی آزمایش شدهاند و ریتم زبانهای دیگر ممکن است به تنظیمات بیشتری نیاز داشته باشد.
نمونه اولیه فعلی از هدفونهای روی گوش، میکروفونها و مدارهای تجاری استفاده میکند. گولاکوتا انتظار دارد در نهایت این سیستم را به اندازهای کوچک کند که روی یک تراشه کوچک درون یک ایرباد یا سمعک اجرا شود. توسعهدهندگان این هدفون هوش مصنوعی معتقدند که این فناوری میتواند روزی به کاربران سمعک، ایرباد و عینکهای هوشمند کمک کند تا محیط صوتی خود را بدون نیاز به هدایت دستی «توجه» هوش مصنوعی، فیلتر کند.
این تیم فناوری خود را در کنفرانس روشهای تجربی در پردازش زبان طبیعی در سوژو، چین ارائه کردند و کد زیربنایی آن نیز متنباز و برای دانلود در دسترس است. در یک کار همزمان که در MobiCom 2025 ارائه شد، نویسندگان نشان دادند که اجرای مدلهای هوش مصنوعی بر روی دستگاههای کوچک سمعک امکانپذیر است.




پاسخگوی سوالات شما هستیم
دیدگاهی وجود ندارد!