اخبار تکنولوژی ۲ فروردین ۱۴۰۴ زمان خواندن: ۳ دقیقه

هوش مصنوعی حالا با لحن دلخواه شما صحبت می‌کند! ارتقای چشمگیر مدل‌های صوتی OpenAI

شرکت OpenAI اخیراً نسخه‌های جدیدی از مدل‌های صوتی هوش مصنوعی خود برای تبدیل گفتار به متن (Speech-to-Text) و تولید صدا (Text-to-Speech) را معرفی کرده که می‌توانند دقت و طبیعی بودن تجربه‌های صوتی در اپلیکیشن‌ها و ابزارهای مبتنی بر هوش مصنوعی را به‌طور چشمگیری افزایش دهند.

مدل‌های صوتی هوش مصنوعی جدید برای تبدیل متن به صدا؛ انعطاف در بیان، تنوع در لحن

یکی از مهم‌ترین بروزرسانی‌های اعلام‌شده، مربوط به مدل جدید تبدیل متن به صدا (TTS) است که با نام gpt-4o-mini-tts-1 شناخته می‌شود. این مدل می‌تواند صداهایی بسیار طبیعی تولید کند و یکی از قابلیت‌های چشمگیر آن، پشتیبانی از لحن‌ها و سبک‌های متنوع گفتاری است.

برای مثال، توسعه‌دهندگان می‌توانند صرفاً با استفاده از زبان طبیعی، از مدل بخواهند تا متن را با صدایی آرام، خشن، هیجان‌زده یا حتی شوخ‌طبع بخواند. عباراتی مانند «با لحنی شبیه یک معلم مهربان صحبت کن» یا «با انرژی زیاد و مثل یک مجری تلویزیونی صحبت کن» حالا برای کنترل نحوه گفتار مدل قابل استفاده هستند.

OpenAI همچنین اعلام کرده که صدای تولیدی این مدل به‌طور قابل توجهی طبیعی‌تر از نسخه‌های قبلی است. این ویژگی می‌تواند به تولید محتوای صوتی، پادکست، ربات‌های گفتگو (Voicebot)، بازی‌های ویدیویی و ابزارهای آموزشی کمک کند.

ارتقای تبدیل گفتار به متن؛ سرعت و دقت بالاتر نسبت به Whisper

در کنار بهبود تولید صدا، OpenAI مدل‌های صوتی هوش مصنوعی جدیدی برای تبدیل گفتار به متن معرفی کرده که جایگزین سیستم محبوب Whisper خواهند شد. این مدل‌ها با نام‌های gpt-4o-transcribe-2024-04-09 و gpt-4o-mini-transcribe-2024-04-09 منتشر شده‌اند.

مدل‌های جدید عملکرد بهتری نسبت به Whisper در حوزه‌هایی مانند:

تشخیص لهجه‌های مختلف
درک گفتار در محیط‌های پر سر و صدا
پردازش گفتار با سرعت بالا

این پست را هم بخوانید درخواست OpenAI برای ممنوعیت دیپ سیک در آمریکا: نگرانی امنیتی یا رقابتی؟

دارند و بر اساس دیتاست‌هایی گسترده‌تر و متنوع‌تر آموزش دیده‌اند. این پیشرفت به‌ویژه برای کاربردهای عملی در تماس‌های صوتی، جلسات آنلاین، خدمات مشتریان و تولید زیرنویس خودکار مفید خواهد بود.

کاهش خطای مدل‌های جدید صوتی هوش مصنوعی OpenAI

معماری جدید برای توسعه سیستم‌های تعاملی

هدف بلندمدت OpenAI از این بروزرسانی‌ها، ساخت سیستم‌هایی است که بتوانند با انسان‌ها به شیوه‌ای طبیعی‌تر تعامل کنند. مدل‌های صوتی هوش مصنوعی جدید، در کنار سایر قابلیت‌های مدل GPT-4o که توانایی درک متن، تصویر و صدا را دارد، پایه‌گذار نسل بعدی هوش مصنوعی تعاملی خواهند بود.

به‌عبارت دیگر، ترکیب این مدل‌های جدید با سایر ابزارهای OpenAI می‌تواند به ساخت دستیارهای هوشمندی منجر شود که نه‌تنها متن را درک می‌کنند، بلکه صدای انسان را می‌فهمند و پاسخ‌هایی صوتی با لحن مناسب تولید می‌کنند.

در دسترس برای توسعه‌دهندگان از طریق API

هر دو مدل جدید، یعنی هم TTS و هم STT، هم‌اکنون از طریق API در پلتفرم OpenAI در دسترس توسعه‌دهندگان قرار گرفته‌اند. OpenAI اعلام کرده که قصد دارد تا تابستان ۲۰۲۵، این مدل‌ها را به‌طور گسترده در محصولات خود مثل ChatGPT نیز به‌کار گیرد.

کاربران سرویس‌های مبتنی بر GPT می‌توانند در آینده‌ای نزدیک شاهد مکالمه‌های صوتی روان‌تر، طبیعی‌تر و دقیق‌تر با مدل‌های هوش مصنوعی باشند. به‌طور خاص، در نسخه‌های بعدی ChatGPT، قابلیت صحبت کردن با هوش مصنوعی به‌شکلی واقع‌گرایانه‌تر فراهم خواهد شد.

نمونه صدای با لحن مرموز

نمونه صدا با لحن حرفه‌ای

رقابت در حوزه صدا؛ OpenAI در برابر ElevenLabs و Google

بازار تولید صدا و پردازش صوت، در حال تبدیل شدن به یکی از رقابتی‌ترین زمینه‌های توسعه هوش مصنوعی است. شرکت‌هایی مانند ElevenLabs و Google نیز سرمایه‌گذاری‌های گسترده‌ای در این حوزه انجام داده‌اند. اما به‌نظر می‌رسد OpenAI با معرفی این مدل‌های جدید، قصد دارد پیشتاز این رقابت باقی بماند.

این پست را هم بخوانید ChatGPT حالا به گیت‌هاب متصل می‌شود؛ پاسخ به سوالات کدنویسی هوشمندتر از همیشه

کیفیت صدای تولیدی، کنترل روی لحن و حالت بیان، و دقت در تبدیل گفتار به متن، عواملی هستند که می‌توانند باعث تمایز این مدل‌ها در بازار شوند.

با انتشار این مدل‌های صوتی هوش مصنوعی جدید، OpenAI گام مهمی به‌سوی آینده‌ای برداشته که در آن انسان‌ها می‌توانند با ماشین‌ها صحبت کنند، شنیده شوند و پاسخ‌هایی انسانی‌تر دریافت کنند. ترکیب هوش مصنوعی و صدا، یکی از کلیدهای اصلی برای ساخت تجربه‌های دیجیتالی جدید است — و OpenAI حالا یکی از ابزارهای اصلی این مسیر را در اختیار دارد.

این نوشته‌ها را هم بخوانید:

ضبط مکالمه در ایزابل

اسکم‌مایندر (ScamMinder) چیست؟ شکار کلاهبرداری با هوش مصنوعی!

کریو کنترل چیست؟ امنیت پیشرفته با مدیریت ساده

اگر به دنیای شبکه علاقه‌مندید و می‌خواهید در این زمینه حرفه‌ای شوید، دوره های آموزش شبکه نت ادمین پلاس را بررسی کنید. در کانال یوتوب نت ادمین پلا س هم می‌توانید ویدیوهای پروژه‌محور زیادی را درباره سناریوهای کاربردی شبکه ببینید.

هوش مصنوعی