Alibaba Open-Sources Qwen3-TTS Model Suite, доставящ многоезично генериране на реч с ултра ниска латентност

22 януари 2026 г. — Екипът на Qwen на Alibaba официално отвори пълното семейство Qwen3-TTS модели за текст-към-говор, включващо модели за генериране на реч с множество кодови книги в два размера: 1.7B параметри за максимална производителност и 0.6B параметри, оптимизирани за баланс между качество и ефективност. Моделите вече са налични на GitHub, ModelScope и други платформи, като достъпът на живо се поддържа чрез Qwen API.

Qwen3-TTS предлага изчерпателен набор от функции, включително клониране на глас, създаване на глас, синтез на човешка реч и управление на инструкции на естествен език. Захранван от собствено разработения Qwen3-TTS-Tokenizer-12Hz енкодер за реч с множество кодови книги, моделът запазва богати паралингвистични знаци и детайли на акустичната среда, позволявайки висококачествена гласова реконструкция.

Ключово нововъведение е неговата Dual-Track моделираща архитектура, която намалява латентността на синтеза от край до край до само 97 милисекунди, като първият аудио пакет се генерира след един знак – което го прави много подходящ за разговорни приложения в реално време.

Моделът поддържа 10 основни езика, включително китайски, английски, японски и немски, както и множество диалекти. Той може автоматично да адаптира интонацията, ритъма и емоционалното изразяване въз основа на семантичния контекст, като същевременно показва силна устойчивост на шумно или несъвършено въвеждане на текст. В множество бенчмаркове Qwen3-TTS постига най-съвременна производителност: възможностите му за създаване на глас превъзхождат MiniMax-Voice-Design, неговото междуезиково клониране на глас надминава CosyVoice3, а неговото генериране на говор в дълга форма постига нива на грешки в думата до 2,36% (китайски) и 2,81% (английски).

IMG_0478.png

Чрез комбиниране на многоезична поддръжка, ултра ниска латентност и високо качество на звука, Qwen3-TTS осигурява ефективно и мащабируемо решение за глобално гласово взаимодействие и приложения за реч в реално време.

Източник: IThome

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin