NVIDIA Giới Thiệu PersonaPlex-7B-v1: Mô Hình Chuyển Đổi Giọng Nói Thời Gian Thực Cho Cuộc Hội Thoại Tự Nhiên Và Hai Chiều

**NVIDIA Giới Thiệu PersonaPlex-7B-v1: Mô Hình Chuyển Đổi Giọng Nói Thời Gian Thực Cho Cuộc Hội Thoại Tự Nhiên Và Hai Chiều**

Từ Chuỗi ASR→LLM→TTS Sang Một Mô Hình Hợp Nhất

Các trợ lý giọng nói truyền thống thường hoạt động theo một quy trình tuần tự: Nhận dạng giọng nói (ASR) chuyển lời nói thành văn bản, Mô hình Ngôn ngữ Lớn (LLM) tạo phản hồi bằng văn bản, rồi Bộ tổng hợp giọng nói (TTS) chuyển ngược văn bản thành âm thanh. Mỗi bước đều gây ra độ trễ, và quy trình này không thể xử lý việc nói chồng lấn, ngắt lời tự nhiên hay các phản hồi ngắn (như “ừ”, “vâng”) một cách linh hoạt.
PersonaPlex thay thế toàn bộ chuỗi xử lý phức tạp đó bằng một mô hình Transformer duy nhất, thực hiện cả việc hiểu lời nói theo thời gian thực và tạo ra lời nói trong cùng một kiến trúc. Mô hình xử lý luồng âm thanh liên tục được mã hóa và đồng thời dự đoán cả token văn bản lẫn token âm thanh. Khi âm thanh của người dùng được đưa vào liên tục, PersonaPlex có thể đồng thời tạo ra phản hồi bằng giọng nói của chính nó, cho phép các tính năng như chủ động ngắt lời, nói chồng lấn, chuyển lượt nói nhanh và đưa ra các phản hồi ngắn phù hợp ngữ cảnh.
PersonaPlex hoạt động với cơ chế hai luồng song song: một luồng theo dõi âm thanh đầu vào của người dùng, luồng còn lại theo dõi đầu ra văn bản và âm thanh của trợ lý. Cả hai luồng chia sẻ chung trạng thái mô hình, cho phép trợ lý vừa nghe vừa nói và điều chỉnh phản hồi ngay lập tức khi bị người dùng ngắt lời. Thiết kế này lấy cảm hứng trực tiếp từ kiến trúc Moshi song công của Kyutai.

Kết Hợp Prompt Để Kiểm Soát Giọng Nói Và Vai Trò

PersonaPlex sử dụng hai loại prompt kết hợp để định hình nhân cách và hành vi hội thoại:

  • Prompt giọng nói: Là một chuỗi token âm thanh mã hóa các đặc điểm như chất giọng, phong cách nói và ngữ điệu.
  • Prompt văn bản: Mô tả vai trò, bối cảnh, thông tin tổ chức và kịch bản hội thoại.
Bí mật:  Người dùng Cash App giờ đây có thể góp tiền theo nhóm, kể cả với người chưa dùng ứng dụng

Cùng với đó, một prompt hệ thống hỗ trợ các trường thông tin như tên, tên doanh nghiệp, tên trợ lý và thông tin kinh doanh, với dung lượng lên đến 200 token. Sự kết hợp này cho phép kiểm soát đồng thời cả nội dung ngôn ngữ lẫn biểu cảm bằng giọng nói của trợ lý.

Kiến Trúc, Lõi Helium Và Đường Dẫn Âm Thanh

PersonaPlex có 7 tỷ tham số và kế thừa kiến trúc mạng của Moshi. Một bộ mã hóa giọng nói tên Mimi, kết hợp ConvNet và Transformer, chuyển đổi âm thanh dạng sóng thành các token rời rạc. Các lớp Transformer xử lý theo thời gian và chiều sâu để xử lý nhiều kênh thông tin đại diện cho âm thanh người dùng, văn bản và âm thanh của trợ lý. Một bộ giải mã giọng nói Mimi tương tự sẽ tạo ra các token âm thanh đầu ra. Âm thanh được xử lý ở tần số 24 kHz cho cả đầu vào và đầu ra.
Mô hình được xây dựng dựa trên trọng số của Moshi và sử dụng Helium làm lõi mô hình ngôn ngữ nền tảng. Helium cung cấp khả năng hiểu ngữ nghĩa sâu, cho phép mô hình xử lý tốt ngay cả với các tình huống hội thoại ngoài phạm vi dữ liệu huấn luyện. Điều này được thể hiện qua ví dụ ‘sự cố không gian’, nơi một prompt về sự cố lò phản ứng trong nhiệm vụ Sao Hỏa đã tạo ra phản hồi kỹ thuật mạch lạc với tông giọng cảm xúc phù hợp.

Hỗn Hợp Dữ Liệu Huấn Luyện: Hội Thoại Thực Và Tổng Hợp

Quá trình huấn luyện một giai đoạn sử dụng hỗn hợp dữ liệu hội thoại thực và tổng hợp.

  • Hội thoại thực: Lấy từ 7.303 cuộc gọi (khoảng 1.217 giờ) trong bộ dữ liệu Fisher English. Các cuộc hội thoại này được bổ sung prompt mô tả persona một cách hồi cứu bằng GPT-OSS-120B, từ mô tả đơn giản đến chi tiết về tính cách, lịch sử và sở thích. Dữ liệu này cung cấp các yếu tố tự nhiên như phản hồi ngắn, sự ngập ngừng, tạm dừng và biểu cảm cảm xúc khó tạo ra chỉ từ TTS.
  • Hội thoại tổng hợp: Bao phủ hai kịch bản chính:
  • Trợ lý: 39.322 cuộc hội thoại (~410 giờ), được tạo bởi Qwen3-32B và GPT-OSS-120B, rồi chuyển thành giọng nói bằng Chatterbox TTS. Prompt văn bản cố định: Bạn là một giáo viên thông thái và thân thiện. Trả lời câu hỏi hoặc đưa ra lời khuyên một cách rõ ràng và hấp dẫn.
  • Dịch vụ khách hàng: 105.410 cuộc hội thoại (~1.840 giờ), với prompt mã hóa thông tin tổ chức, loại vai trò, tên nhân viên và các quy tắc kinh doanh có cấu trúc.
Bí mật:  Lời kêu gọi toàn cầu đặt ra “giới hạn đỏ” cho AI: Báo động về sự thiếu vắng chính sách quốc tế

Cách tiếp cận này giúp PersonaPlex tách biệt hành vi hội thoại tự nhiên (học từ dữ liệu thực) với khả năng tuân thủ nhiệm vụ và vai trò cụ thể (học từ dữ liệu tổng hợp).

Đánh Giá Trên FullDuplexBench Và ServiceDuplexBench

PersonaPlex được thử nghiệm trên FullDuplexBench (bộ tiêu chuẩn cho hội thoại song công) và ServiceDuplexBench (mở rộng cho kịch bản dịch vụ khách hàng).
FullDuplexBench đánh giá động lực hội thoại qua Tỷ lệ Chuyển Lượt Thành Công (Takeover Rate – TOR) và các chỉ số độ trễ. GPT-4o đóng vai trò giám khảo cho chất lượng phản hồi. Kết quả:

  • TOR cho chuyển lượt mượt mà: 0.908 (độ trễ 0.170 giây).
  • TOR cho xử lý ngắt lời người dùng: 0.950 (độ trễ 0.240 giây).
  • Độ tương đồng giọng nói giữa prompt và đầu ra (đo bằng WavLM TDNN): 0.650.

PersonaPlex thể hiện hiệu suất vượt trội so với nhiều hệ thống khác về động lực hội thoại, độ trễ phản hồi và khả năng tuân thủ nhiệm vụ trong cả hai vai trò trợ lý và dịch vụ khách hàng.
https://research.nvidia.com/labs/adlr/personaplex/

Tóm Tắt Những Điểm Chính

  1. PersonaPlex-7B-v1 là mô hình hội thoại bằng giọng nói song công 7 tỷ tham số từ NVIDIA, dựa trên kiến trúc Moshi với lõi Helium. Mã nguồn theo giấy phép MIT và trọng số theo Giấy phép Mô hình Mở của NVIDIA.
  2. Mô hình sử dụng Transformer hai luồng với bộ mã hóa/giải mã Mimi ở 24 kHz, cho phép xử lý âm thanh thời gian thực, hỗ trợ ngắt lời, nói chồng lấn và chuyển lượt nói tự nhiên.
  3. Kiểm soát persona thông qua kết hợp prompt: prompt giọng nói định hình âm sắc; prompt văn bản và hệ thống (đến 200 token) định nghĩa vai trò và ngữ cảnh.
  4. Được huấn luyện trên hỗn hợp dữ liệu hội thoại thực (Fisher) và tổng hợp (trợ lý & CSKH), giúp cân bằng tính tự nhiên và khả năng tuân thủ nhiệm vụ.
  5. Trên các bộ đánh giá, PersonaPlex đạt tỷ lệ chuyển lượt và xử lý ngắt lời rất cao (>0.9) với độ trễ dưới 1 giây, vượt trội nhiều hệ thống hiện có.
Bí mật:  OpenAI trình làng trợ lý AI đa năng tích hợp trong ChatGPT

Xem thêm chi tiết kỹ thuật tại Technical details, tải Model weightsRepo.

Tags: NVIDIA, PersonaPlex, real-time voice AI

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top