Компания DeepL, известная своим онлайн-переводчиком текстов, представляет новый сервис — DeepL Voice, который способен слушать речь на одном языке и в реальном времени переводить ее на другой. DeepL утверждает, что их решения предлагают более «точный и деликатный» перевод по сравнению с Google, что позволило компании достичь оценки в $2 млрд и привлечь более 100 тысяч клиентов, сообщает TechCrunch.
Ажиотаж вокруг сервисов искусственного интеллекта продолжает расти. Теперь DeepL добавляет новый режим работы на своей платформе — голосовой перевод. С помощью DeepL Voice пользователи смогут слушать речь человека на одном языке и автоматически получать перевод на другой язык в режиме реального времени.
На данный момент сервис поддерживает распознавание речи на 13 языках: английском, немецком, японском, корейском, шведском, голландском, французском, турецком, польском, португальском, русском, испанском и итальянском. Субтитры же доступны для всех 33 языков, которые поддерживает DeepL Translator.
DeepL Voice не предоставляет результат в виде аудио или видеофайлов. Этот сервис предназначен для общения в реальном времени и проведения видеоконференций, а переведенный текст отображается в виде субтитров. Для удобства общения перевод можно настроить так, чтобы он отображался на экране смартфона, где собеседники могут видеть текст перевода, расположив телефон между собой. В сервисах видеоконференций переводы отображаются в виде субтитров.
Основатель и генеральный директор DeepL Ярек Кутыловски отметил, что это только первый голосовой продукт компании, и не исключено, что в будущем появятся новые разработки в этой области.
Конкуренты, такие как Google, уже начали внедрять субтитры в реальном времени в своем сервисе видеоконференций Google Meet, а также появляются новые ИИ-стартапы, такие как ElevenLabs и Panjaya, которые разрабатывают голосовые сервисы перевода. Кутыловски добавил, что ElevenLabs использует технологии DeepL для работы своего сервиса, а API для голосового продукта пока не существует.
На данный момент DeepL сотрудничает напрямую с партнерами и клиентами в рамках своего основного B2B-бизнеса, и единственным сервисом видеозвонков, поддерживающим субтитры от DeepL, является Teams. В компании не уточнили, когда другие видеоконференц-сервисы, такие как Zoom или Google Meet, будут поддерживать DeepL Voice.
Для пользователей новая функция станет долгожданным улучшением, так как голосовой перевод был одним из самых востребованных запросов с момента запуска DeepL в 2017 году. В отличие от большинства ИИ-приложений, которые используют языковые модели других компаний, DeepL разрабатывает свой собственный сервис с нуля. В июле компания выпустила новую LLM (large language model), оптимизированную для перевода, которая превосходит GPT-4 и модели от Google и Microsoft.
Одним из ключевых преимуществ DeepL Voice является работа в реальном времени, что особенно важно, поскольку многие существующие сервисы искусственного перевода на рынке страдают от задержек, что ограничивает их использование в реальных условиях.
DeepL видит множество возможных сфер применения своего нового продукта, включая видеоконференции и деловые совещания, а также сферу обслуживания, где работники смогут использовать сервис для более удобного общения с клиентами.
Однако, в условиях растущего внимания к вопросам защиты данных, предстоит выяснить, насколько пользователи будут готовы делиться своими голосовыми данными с такими сервисами. Впрочем, это становится актуальной темой для большинства современных технологий.
Ранее OpenAI также объявила о расширении голосового режима для платных клиентов ChatGPT, улучшив распознавание акцентов и добавив пять новых голосов, что также открывает новые возможности для пользователей.