آنچه خواهید خواند
بهینهسازی مدل Piper TTS با هوش مصنوعی
یک توسعهدهنده سالها پیش یک سیستم اتوماسیون خانگی را سرهم کرد که اخیراً از صداهای Piper TTS (تبدیل متن به گفتار) برای اهداف مختلف استفاده میکند. او که از صداهای استاندارد رباتیک موجود راضی نبود، آزمایشی را برای تنظیم دقیق مدل صوتی هوش مصنوعی Piper TTS با استفاده از یک شبیهسازی از یک عبارت واحد ایجادشده توسط یک صدای TTS تجاری به عنوان نقطه شروع، آغاز کرد.
قبل از انتشار Piper TTS در سال 2023، سیستمهای TTS رایگان موجود مانند espeak و Festival صدایی رباتیک و تخت داشتند. Piper خروجی بسیار طبیعیتری را بدون نیاز به منابع گسترده برای اجرا ارائه داد. برای تغییر سبک صدا، مدل هوش مصنوعی Piper میتواند از ابتدا بازآموزی شود یا با تلاش کمتری تنظیم دقیق شود.
در حالت دوم، مسئلهای که ابتدا باید حل شود این بود که چگونه حجم لازم از عبارات آموزشی را برای اجرای تنظیم دقیق مدل هوش مصنوعی Piper تولید کنیم. این مشکل با استفاده از یک مدل هوش مصنوعی سنگین به نام ChatterBox حل شد که قادر به اصطلاح آموزش zeroshot است. دموی Chatterbox را بررسی کنید.
آموزش با مجموعهای از عبارات آزمایشی در قالب متن آغاز شد تا پوشش مناسبی از زبان انگلیسی روزمره تضمین شود. توسعهدهنده از ChatterBox برای شبیهسازی صدا از یک عبارت آزمایشی واحد تولیدشده توسط یک سیستم TTS مرموز استفاده کرد و 1300 عبارت آزمایشی از این صدای جدید ایجاد کرد. این مجموعه صوتی به عنوان داده آموزشی برای تنظیم دقیق مدل هوش مصنوعی Piper بر روی دستگاه GPU متصلشده استفاده شد.
برای بررسی صحت، توسعهدهنده از نرمافزار Whisper OpenAI برای رونویسی صدا به متن استفاده کرد تا با مجموعه متن اصلی مقایسه کند. برای غلبه بر مشکلات مربوط به نشانهگذاری و تفاوتهای بین انگلیسی آمریکایی و بریتانیایی، متن با استفاده از espeakng به آواها تبدیل شد که منجر به دقت 98٪ در تطبیق عبارت شد.
پس از نمونهبرداری از مجموعه آموزشی با استفاده از SoX، برای سیستم آموزش Piper TTS آماده شد. با وجود تمام آمادگیها، اجرای نرمافزار کمی ناامیدکننده به نظر میرسید.
چند ناسازگاری در مجموعه داده، حذف برخی از نقاط داده را ضروری کرد. پس از پنج روز آموزش که به دلیل نگرانی در مورد گرما در سایه پارک شده بود، TensorBoard نشان داد که تابع زیان مدل در حال همگرایی است. این اصطلاحی در هوش مصنوعی است به این معنی که: مدل تنظیم شده و آماده برای عمل است! فکر میکنیم خیلی عالی به نظر میرسد.
اگر تمام این ترکیب گفتار هوش مصنوعی جدید بسیار پیچیده و کمی ترسناک است، آیا میتوانیم یک راه حل دهه 1980 را برای صحبت کردن پیشنهاد کنیم؟ در نهایت، اکثر مردم توانایی صحبت کردن را بدیهی میدانند، تا زمانی که دیگر نتوانند این کار را انجام دهند. در اینجا تیمی با استفاده از هوش مصنوعی پیشرفته، این توانایی را به افراد باز میگرداند.


پاسخگوی سوالات شما هستیم
دیدگاهی وجود ندارد!