بهبود صدای هوش مصنوعی با مدل Piper TTS

بهینه‌سازی مدل Piper TTS با هوش مصنوعی

یک توسعه‌دهنده سال‌ها پیش یک سیستم اتوماسیون خانگی را سرهم کرد که اخیراً از صداهای Piper TTS (تبدیل متن به گفتار) برای اهداف مختلف استفاده میکند. او که از صداهای استاندارد رباتیک موجود راضی نبود، آزمایشی را برای تنظیم دقیق مدل صوتی هوش مصنوعی Piper TTS با استفاده از یک شبیه‌سازی از یک عبارت واحد ایجادشده توسط یک صدای TTS تجاری به عنوان نقطه شروع، آغاز کرد.

قبل از انتشار Piper TTS در سال 2023، سیستم‌های TTS رایگان موجود مانند espeak و Festival صدایی رباتیک و تخت داشتند. Piper خروجی بسیار طبیعی‌تری را بدون نیاز به منابع گسترده برای اجرا ارائه داد. برای تغییر سبک صدا، مدل هوش مصنوعی Piper میتواند از ابتدا بازآموزی شود یا با تلاش کمتری تنظیم دقیق شود.

در حالت دوم، مسئله‌ای که ابتدا باید حل شود این بود که چگونه حجم لازم از عبارات آموزشی را برای اجرای تنظیم دقیق مدل هوش مصنوعی Piper تولید کنیم. این مشکل با استفاده از یک مدل هوش مصنوعی سنگین به نام ChatterBox حل شد که قادر به اصطلاح آموزش zeroshot است. دموی Chatterbox را بررسی کنید.

آموزش با مجموعه‌ای از عبارات آزمایشی در قالب متن آغاز شد تا پوشش مناسبی از زبان انگلیسی روزمره تضمین شود. توسعه‌دهنده از ChatterBox برای شبیه‌سازی صدا از یک عبارت آزمایشی واحد تولیدشده توسط یک سیستم TTS مرموز استفاده کرد و 1300 عبارت آزمایشی از این صدای جدید ایجاد کرد. این مجموعه صوتی به عنوان داده آموزشی برای تنظیم دقیق مدل هوش مصنوعی Piper بر روی دستگاه GPU متصل‌شده استفاده شد.

برای بررسی صحت، توسعه‌دهنده از نرم‌افزار Whisper OpenAI برای رونویسی صدا به متن استفاده کرد تا با مجموعه متن اصلی مقایسه کند. برای غلبه بر مشکلات مربوط به نشانه‌گذاری و تفاوت‌های بین انگلیسی آمریکایی و بریتانیایی، متن با استفاده از espeakng به آواها تبدیل شد که منجر به دقت 98٪ در تطبیق عبارت شد.

پس از نمونه‌برداری از مجموعه آموزشی با استفاده از SoX، برای سیستم آموزش Piper TTS آماده شد. با وجود تمام آمادگی‌ها، اجرای نرم‌افزار کمی ناامیدکننده به نظر میرسید.

چند ناسازگاری در مجموعه داده، حذف برخی از نقاط داده را ضروری کرد. پس از پنج روز آموزش که به دلیل نگرانی در مورد گرما در سایه پارک شده بود، TensorBoard نشان داد که تابع زیان مدل در حال همگرایی است. این اصطلاحی در هوش مصنوعی است به این معنی که: مدل تنظیم شده و آماده برای عمل است! فکر میکنیم خیلی عالی به نظر میرسد.

اگر تمام این ترکیب گفتار هوش مصنوعی جدید بسیار پیچیده و کمی ترسناک است، آیا میتوانیم یک راه حل دهه 1980 را برای صحبت کردن پیشنهاد کنیم؟ در نهایت، اکثر مردم توانایی صحبت کردن را بدیهی میدانند، تا زمانی که دیگر نتوانند این کار را انجام دهند. در اینجا تیمی با استفاده از هوش مصنوعی پیشرفته، این توانایی را به افراد باز میگرداند.