Nhóm Qwen phát hành Qwen3-TTS: Bộ công cụ TTS đa ngôn ngữ mã nguồn mở với độ trễ thời gian thực

**Nhóm Qwen phát hành Qwen3-TTS: Bộ công cụ TTS đa ngôn ngữ mã nguồn mở với độ trễ thời gian thực**

Nhóm Qwen từ Alibaba Cloud vừa công bố mã nguồn mở Qwen3-TTS, một họ mô hình chuyển văn bản thành giọng nói (TTS) đa ngôn ngữ, tích hợp ba chức năng chính trong một kiến trúc duy nhất: sao chép giọng nói, thiết kế giọng nói và tạo giọng nói chất lượng cao.

https://arxiv.org/pdf/2601.15621v1

Họ mô hình và tính năng

Qwen3-TTS sử dụng bộ token hóa giọng nói 12Hz và hai quy mô mô hình ngôn ngữ: 0.6B và 1.7B, được tối ưu cho 3 tác vụ chính. Bản phát hành cung cấp 5 mô hình: Qwen3-TTS-12Hz-0.6B-Base và Qwen3-TTS-12Hz-1.7B-Base dùng để sao chép giọng nói và TTS thông thường; Qwen3-TTS-12Hz-0.6B-CustomVoice và Qwen3-TTS-12Hz-1.7B-CustomVoice cho phép điều khiển các giọng nói được định sẵn bằng lời nhắc; và Qwen3-TTS-12Hz-1.7B-VoiceDesign để tạo giọng nói hoàn toàn mới từ mô tả ngôn ngữ tự nhiên, cùng với bộ mã hóa Qwen3-TTS-Tokenizer-12Hz.

Tất cả mô hình hỗ trợ 10 ngôn ngữ: Tiếng Trung, Anh, Nhật, Hàn, Đức, Pháp, Nga, Bồ Đào Nha, Tây Ban Nha và Ý. Các phiên bản CustomVoice đi kèm 9 âm sắc được tuyển chọn, như Vivian (giọng nữ Trung Quốc trẻ trung, sáng sủa), Ryan (giọng nam Anh năng động) và Ono_Anna (giọng nữ Nhật vui tươi), mỗi giọng đều có mô tả ngắn mã hóa đặc điểm âm sắc và phong cách nói.

Mô hình VoiceDesign có thể biến hướng dẫn văn bản trực tiếp thành giọng nói mới, ví dụ: 'speak in a nervous teenage male voice with rising intonation' (nói bằng giọng nam thanh thiếu niên lo lắng với ngữ điệu lên cao). Giọng nói tạo ra sau đó có thể được kết hợp với mô hình Base bằng cách tạo một đoạn clip tham chiếu ngắn và tái sử dụng thông qua create_voice_clone_prompt.

https://arxiv.org/pdf/2601.15621v1

Kiến trúc, bộ token hóa và luồng phát trực tuyến

Qwen3-TTS là một mô hình ngôn ngữ hai luồng: một luồng dự đoán các token âm thanh rời rạc từ văn bản, luồng còn lại xử lý tín hiệu căn chỉnh và điều khiển. Hệ thống được huấn luyện trên hơn 5 triệu giờ dữ liệu giọng nói đa ngôn ngữ qua 3 giai đoạn tiền huấn luyện, từ ánh xạ chung, đến dữ liệu chất lượng cao, và cuối cùng hỗ trợ ngữ cảnh dài lên đến 32.768 token.

Bí mật:  Copilot trên Windows giờ đã hỗ trợ tạo tài liệu Office và kết nối Gmail

Một thành phần then chốt là bộ mã hóa Qwen3-TTS-Tokenizer-12Hz. Nó hoạt động ở tốc độ 12.5 khung hình/giây (khoảng 80 ms/token) và sử dụng 16 bộ lượng tử hóa với bảng mã 2048 mục. Trên bộ kiểm tra LibriSpeech test clean, nó đạt điểm PESQ wideband 3.21, STOI 0.96 và UTMOS 4.16, vượt trội so với SpeechTokenizer, XCodec, Mimi, FireredTTS 2 và các bộ token hóa ngữ nghĩa gần đây khác, trong khi sử dụng tốc độ khung hình tương đương hoặc thấp hơn.

Bộ token hóa được triển khai như một bộ giải mã phát trực tuyến thuần túy theo ngữ cảnh trái, cho phép phát ra dạng sóng ngay khi có đủ token. Với 4 token mỗi gói, mỗi gói phát trực tuyến mang theo 320 ms âm thanh. Thiết kế bộ giải mã không sử dụng DiT và BigVGAN giúp giảm chi phí giải mã và đơn giản hóa việc xử lý theo lô.

Về phía mô hình ngôn ngữ, nhóm nghiên cứu báo cáo phép đo phát trực tuyến đầu-cuối trên một backend vLLM đơn lẻ với tối ưu hóa torch.compile và CUDA Graph. Đối với Qwen3-TTS-12Hz-0.6B-Base và Qwen3-TTS-12Hz-1.7B-Base ở mức độ đồng thời là 1, độ trễ gói đầu tiên lần lượt là khoảng 97 ms và 101 ms, với hệ số thời gian thực là 0.288 và 0.313. Ngay cả ở mức độ đồng thời là 6, độ trễ gói đầu tiên vẫn duy trì ở khoảng 299 ms và 333 ms.

https://arxiv.org/pdf/2601.15621v1

Căn chỉnh và điều khiển

Quá trình huấn luyện sau cùng sử dụng một đường ống căn chỉnh nhiều giai đoạn. Đầu tiên, Tối ưu hóa Ưu tiên Trực tiếp (Direct Preference Optimization – DPO) được dùng để căn chỉnh giọng nói tạo ra với sở thích con người trên dữ liệu đa ngôn ngữ. Tiếp theo, GSPO với phần thưởng dựa trên quy tắc giúp cải thiện độ ổn định và ngữ điệu. Giai đoạn tinh chỉnh người nói cuối cùng trên mô hình Base tạo ra các biến thể giọng nói mục tiêu trong khi vẫn giữ nguyên khả năng cốt lõi của mô hình tổng quát.

Việc tuân theo hướng dẫn được triển khai theo định dạng kiểu ChatML, trong đó các chỉ dẫn bằng văn bản về phong cách, cảm xúc hoặc tốc độ được thêm vào đầu đầu vào. Giao diện tương tự này cũng được dùng cho VoiceDesign, các lời nhắc kiểu CustomVoice và chỉnh sửa chi tiết cho giọng nói đã sao chép.

Bí mật:  Sản phẩm phần cứng đầu tiên của OpenAI dự kiến ra mắt vào cuối năm 2026

Đánh giá hiệu năng, sao chép giọng nói zero-shot và đa ngôn ngữ

Trên bộ kiểm tra Seed-TTS, Qwen3-TTS được đánh giá như một hệ thống sao chép giọng nói zero-shot. Mô hình Qwen3-TTS-12Hz-1.7B-Base đạt Tỷ lệ Lỗi Từ (Word Error Rate – WER) là 0.77 trên test-zh và 1.24 trên test-en. Nhóm nghiên cứu nhấn mạnh rằng WER 1.24 trên test-en là kết quả tiên tiến nhất trong số các hệ thống được so sánh, trong khi WER tiếng Trung gần với (nhưng không thấp hơn) điểm số tốt nhất của CosyVoice 3.

https://arxiv.org/pdf/2601.15621v1

Trên một bộ kiểm tra TTS đa ngôn ngữ gồm 10 ngôn ngữ, Qwen3-TTS đạt WER thấp nhất trong 6 ngôn ngữ: Trung Quốc, Anh, Ý, Pháp, Hàn Quốc và Nga, và có hiệu suất cạnh tranh trên 4 ngôn ngữ còn lại. Đồng thời, nó đạt độ tương đồng người nói cao nhất trong tất cả 10 ngôn ngữ so với MiniMax-Speech và ElevenLabs Multilingual v2.

Các đánh giá chéo ngôn ngữ cho thấy Qwen3-TTS-12Hz-1.7B-Base làm giảm đáng kể tỷ lệ lỗi hỗn hợp cho một số cặp ngôn ngữ, chẳng hạn như zh-to-ko, nơi lỗi giảm từ 14.4 (CosyVoice3) xuống còn 4.82, tương đương giảm khoảng 66%.

Trên InstructTTSEval, mô hình Thiết kế Giọng nói Qwen3TTS-12Hz-1.7B-VD thiết lập điểm số tiên tiến mới trong số các mô hình mã nguồn mở về Tính nhất quán Mô tả-Giọng nói và Độ chính xác Phản hồi ở cả tiếng Trung và tiếng Anh, và có khả năng cạnh tranh với các hệ thống thương mại như Hume và Gemini trên một số số liệu.

Những điểm nổi bật

  • Bộ công cụ TTS đa ngôn ngữ mã nguồn mở toàn diện: Qwen3-TTS là bộ công cụ được cấp phép Apache 2.0, tích hợp 3 tác vụ trong một: TTS chất lượng cao, sao chép giọng nói chỉ từ 3 giây và thiết kế giọng nói theo hướng dẫn, hỗ trợ 10 ngôn ngữ sử dụng bộ token hóa 12Hz.
  • Bộ mã hóa rời rạc hiệu quả và phát trực tuyến thời gian thực: Qwen3-TTS-Tokenizer-12Hz sử dụng 16 bảng mã ở tốc độ 12.5 khung hình/giây, đạt điểm PESQ, STOI và UTMOS ấn tượng, hỗ trợ phát trực tuyến theo gói với khoảng 320 ms âm thanh/gói và độ trễ gói đầu tiên dưới 120 ms cho các mô hình 0.6B và 1.7B.
  • Các biến thể mô hình chuyên biệt: Bản phát hành cung cấp mô hình Base cho sao chép và TTS thông thường, mô hình CustomVoice với 9 giọng nói định sẵn và lời nhắc phong cách, cùng mô hình VoiceDesign tạo giọng nói mới trực tiếp từ mô tả ngôn ngữ tự nhiên để mô hình Base tái sử dụng.
  • Khả năng căn chỉnh và đa ngôn ngữ mạnh mẽ: Đường ống căn chỉnh đa giai đoạn với DPO, GSPO và tinh chỉnh người nói giúp Qwen3-TTS đạt WER thấp và độ tương đồng giọng nói cao, dẫn đầu về WER trên 6/10 ngôn ngữ và đứng đầu về độ tương đồng trên cả 10 ngôn ngữ, đồng thời có khả năng sao chép giọng nói zero-shot tiếng Anh tiên tiến trên Seed TTS.
Bí mật:  Gemini Nano Banana Pro Prompts: Hô biến ảnh chân dung thành biếm họa 3D chỉ trong tích tắc

Khám phá Trọng số Mô hình, Kho lưu trữ Mã nguồnSân chơi Trực tuyến.

Tags: Qwen3-TTS, multilingual TTS, open source speech synthesis

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top