هوش مصنوعی حالا با لحن دلخواه شما صحبت میکند! ارتقای چشمگیر مدلهای صوتی OpenAI
شرکت OpenAI اخیراً نسخههای جدیدی از مدلهای صوتی هوش مصنوعی خود برای تبدیل گفتار به متن (Speech-to-Text) و تولید صدا (Text-to-Speech) را معرفی کرده که میتوانند دقت و طبیعی بودن تجربههای صوتی در اپلیکیشنها و ابزارهای مبتنی بر هوش مصنوعی را بهطور چشمگیری افزایش دهند.
مدلهای صوتی هوش مصنوعی جدید برای تبدیل متن به صدا؛ انعطاف در بیان، تنوع در لحن
یکی از مهمترین بروزرسانیهای اعلامشده، مربوط به مدل جدید تبدیل متن به صدا (TTS) است که با نام gpt-4o-mini-tts-1 شناخته میشود. این مدل میتواند صداهایی بسیار طبیعی تولید کند و یکی از قابلیتهای چشمگیر آن، پشتیبانی از لحنها و سبکهای متنوع گفتاری است.
برای مثال، توسعهدهندگان میتوانند صرفاً با استفاده از زبان طبیعی، از مدل بخواهند تا متن را با صدایی آرام، خشن، هیجانزده یا حتی شوخطبع بخواند. عباراتی مانند «با لحنی شبیه یک معلم مهربان صحبت کن» یا «با انرژی زیاد و مثل یک مجری تلویزیونی صحبت کن» حالا برای کنترل نحوه گفتار مدل قابل استفاده هستند.
OpenAI همچنین اعلام کرده که صدای تولیدی این مدل بهطور قابل توجهی طبیعیتر از نسخههای قبلی است. این ویژگی میتواند به تولید محتوای صوتی، پادکست، رباتهای گفتگو (Voicebot)، بازیهای ویدیویی و ابزارهای آموزشی کمک کند.
ارتقای تبدیل گفتار به متن؛ سرعت و دقت بالاتر نسبت به Whisper
در کنار بهبود تولید صدا، OpenAI مدلهای صوتی هوش مصنوعی جدیدی برای تبدیل گفتار به متن معرفی کرده که جایگزین سیستم محبوب Whisper خواهند شد. این مدلها با نامهای gpt-4o-transcribe-2024-04-09 و gpt-4o-mini-transcribe-2024-04-09 منتشر شدهاند.
مدلهای جدید عملکرد بهتری نسبت به Whisper در حوزههایی مانند:
- تشخیص لهجههای مختلف
- درک گفتار در محیطهای پر سر و صدا
- پردازش گفتار با سرعت بالا
دارند و بر اساس دیتاستهایی گستردهتر و متنوعتر آموزش دیدهاند. این پیشرفت بهویژه برای کاربردهای عملی در تماسهای صوتی، جلسات آنلاین، خدمات مشتریان و تولید زیرنویس خودکار مفید خواهد بود.

معماری جدید برای توسعه سیستمهای تعاملی
هدف بلندمدت OpenAI از این بروزرسانیها، ساخت سیستمهایی است که بتوانند با انسانها به شیوهای طبیعیتر تعامل کنند. مدلهای صوتی هوش مصنوعی جدید، در کنار سایر قابلیتهای مدل GPT-4o که توانایی درک متن، تصویر و صدا را دارد، پایهگذار نسل بعدی هوش مصنوعی تعاملی خواهند بود.
بهعبارت دیگر، ترکیب این مدلهای جدید با سایر ابزارهای OpenAI میتواند به ساخت دستیارهای هوشمندی منجر شود که نهتنها متن را درک میکنند، بلکه صدای انسان را میفهمند و پاسخهایی صوتی با لحن مناسب تولید میکنند.
در دسترس برای توسعهدهندگان از طریق API
هر دو مدل جدید، یعنی هم TTS و هم STT، هماکنون از طریق API در پلتفرم OpenAI در دسترس توسعهدهندگان قرار گرفتهاند. OpenAI اعلام کرده که قصد دارد تا تابستان ۲۰۲۵، این مدلها را بهطور گسترده در محصولات خود مثل ChatGPT نیز بهکار گیرد.
کاربران سرویسهای مبتنی بر GPT میتوانند در آیندهای نزدیک شاهد مکالمههای صوتی روانتر، طبیعیتر و دقیقتر با مدلهای هوش مصنوعی باشند. بهطور خاص، در نسخههای بعدی ChatGPT، قابلیت صحبت کردن با هوش مصنوعی بهشکلی واقعگرایانهتر فراهم خواهد شد.
رقابت در حوزه صدا؛ OpenAI در برابر ElevenLabs و Google
بازار تولید صدا و پردازش صوت، در حال تبدیل شدن به یکی از رقابتیترین زمینههای توسعه هوش مصنوعی است. شرکتهایی مانند ElevenLabs و Google نیز سرمایهگذاریهای گستردهای در این حوزه انجام دادهاند. اما بهنظر میرسد OpenAI با معرفی این مدلهای جدید، قصد دارد پیشتاز این رقابت باقی بماند.
کیفیت صدای تولیدی، کنترل روی لحن و حالت بیان، و دقت در تبدیل گفتار به متن، عواملی هستند که میتوانند باعث تمایز این مدلها در بازار شوند.
با انتشار این مدلهای صوتی هوش مصنوعی جدید، OpenAI گام مهمی بهسوی آیندهای برداشته که در آن انسانها میتوانند با ماشینها صحبت کنند، شنیده شوند و پاسخهایی انسانیتر دریافت کنند. ترکیب هوش مصنوعی و صدا، یکی از کلیدهای اصلی برای ساخت تجربههای دیجیتالی جدید است — و OpenAI حالا یکی از ابزارهای اصلی این مسیر را در اختیار دارد.
این نوشتهها را هم بخوانید:
اسکممایندر (ScamMinder) چیست؟ شکار کلاهبرداری با هوش مصنوعی!
اگر به دنیای شبکه علاقهمندید و میخواهید در این زمینه حرفهای شوید، دوره های آموزش شبکه نت ادمین پلاس را بررسی کنید. در کانال یوتوب نت ادمین پلاس هم میتوانید ویدیوهای پروژهمحور زیادی را درباره سناریوهای کاربردی شبکه ببینید.
