Microsoft Ra Mắt VibeVoice-ASR: Mô Hình Chuyển Đổi Giọng Nói Thành Văn Bản Thống Nhất, Xử Lý Âm Thanh 60 Phút Chỉ Với Một Lần Xử Lý

**Microsoft Ra Mắt VibeVoice-ASR: Mô Hình Chuyển Đổi Giọng Nói Thành Văn Bản Thống Nhất, Xử Lý Âm Thanh 60 Phút Chỉ Với Một Lần Xử Lý**

Microsoft đã chính thức phát hành VibeVoice-ASR, một phần trong bộ công cụ AI xử lý giọng nói mã nguồn mở tiên tiến VibeVoice. Mô hình này được thiết kế để chuyển đổi giọng nói thành văn bản một cách thống nhất, với khả năng xử lý toàn bộ đoạn âm thanh dài tới 60 phút chỉ trong một lần duyệt. Đầu ra là bản ghi chép có cấu trúc rõ ràng, thể hiện thông tin Ai Nói, Khi Nào và Nội Dung, đồng thời hỗ trợ tính năng Từ Khóa Tùy Chỉnh.

Toàn bộ dự án VibeVoice, bao gồm các mô hình Chuyển Văn Bản Thành Giọng Nói (TTS), TTS thời gian thực và Nhận Dạng Giọng Nói Tự Động (ASR), được đóng gói trong một kho lưu trữ duy nhất dưới giấy phép MIT. VibeVoice sử dụng kiến trúc kết hợp giữa bộ mã hóa giọng nói chạy liên tục và một khung khuếch tán dự đoán token tiếp theo, trong đó Mô Hình Ngôn Ngữ Lớn (LLM) xử lý logic văn bản và hội thoại, còn một module khuếch tán chịu trách nhiệm tạo ra các chi tiết âm học. Kiến trúc này ban đầu được phát triển cho TTS, nhưng cũng chính là nền tảng thiết kế cho VibeVoice-ASR.

https://huggingface.co/microsoft/VibeVoice-ASR

Xử Lý Âm Thanh Dài Với Ngữ Cảnh Toàn Cục

Khác với các hệ thống ASR truyền thống thường phải cắt nhỏ âm thanh, sau đó mới thực hiện tách người nói và gán nhãn thời gian một cách rời rạc, VibeVoice-ASR được thiết kế để tiếp nhận trực tiếp luồng âm thanh liên tục lên đến 60 phút trong một “cửa sổ ngữ cảnh” lên tới 64K token. Mô hình duy trì một biểu diễn thống nhất cho toàn bộ phiên làm việc, cho phép nó theo dõi xuyên suốt danh tính người nói và ngữ cảnh chủ đề trong hàng giờ liền, thay vì phải thiết lập lại sau mỗi vài giây như phương pháp cũ.

Bí mật:  10 Khái Niệm Docker Cốt Lõi Được Giải Thích Trong 10 Phút

Xử Lý Một Lần Duyệt Cho Âm Thanh 60 Phút

Tính năng chính đầu tiên của VibeVoice-ASR là khả năng xử lý một lần duyệt. Trong khi nhiều hệ thống ASR khác xử lý âm thanh dài bằng cách cắt thành các đoạn ngắn (có thể làm mất mát ngữ cảnh tổng thể), VibeVoice-ASR có thể tiếp nhận và xử lý toàn bộ 60 phút âm thanh trong một lần, nhờ vào cửa sổ ngữ cảnh 64K token. Điều này giúp duy trì tính nhất quán trong việc nhận diện người nói và hiểu ngữ nghĩa xuyên suốt bản ghi.

Tính năng này đặc biệt quan trọng cho các tác vụ như ghi chép cuộc họp, bài giảng hay các cuộc gọi hỗ trợ kéo dài. Việc xử lý một lần duyệt đơn giản hóa đáng kể quy trình, loại bỏ nhu cầu phát triển logic phức tạp để ghép nối kết quả từ các đoạn âm thanh riêng lẻ hoặc sửa lỗi gán nhãn người nói tại các điểm nối.

Từ Khóa Tùy Chỉnh Để Tăng Độ Chính Xác Theo Lĩnh Vực

Tính năng chính thứ hai là Từ Khóa Tùy Chỉnh. Người dùng có thể cung cấp một danh sách từ khóa như tên sản phẩm, tổ chức, thuật ngữ chuyên ngành hoặc thông tin bối cảnh. Mô hình sẽ sử dụng các từ khóa này để định hướng và điều chỉnh quá trình nhận dạng.

Điều này cho phép “huấn luyện” mô hình ưu tiên cách viết và phát âm chính xác cho các từ đặc thù của từng lĩnh vực mà không cần phải huấn luyện lại toàn bộ mô hình. Ví dụ, một nhà phát triển có thể đưa vào tên dự án nội bộ hoặc thuật ngữ của khách hàng ngay tại thời điểm chạy mô hình. Đây là giải pháp linh hoạt khi triển khai cùng một mô hình gốc cho nhiều sản phẩm có đặc điểm âm thanh tương tự nhưng từ vựng chuyên ngành khác biệt.

Bí mật:  Hướng Dẫn Sử Dụng Nano-Banana Pro: Chiến Lược & Thực Hành

Microsoft cũng cung cấp thư mục finetuning-asr với các tập lệnh tinh chỉnh dựa trên LoRA cho VibeVoice-ASR. Sự kết hợp giữa Từ Khóa Tùy Chỉnh và tinh chỉnh LoRA mang đến một lộ trình linh hoạt, hỗ trợ cả việc điều chỉnh nhanh và tùy biến sâu theo từng lĩnh vực cụ thể.

Ghi Chép Chi Tiết: Tách Người Nói và Gán Nhãn Thời Gian

Tính năng thứ ba là khả năng tạo bản ghi chép chi tiết. Mô hình thực hiện đồng thời ba nhiệm vụ: Nhận dạng giọng nói (ASR), tách biệt người nói (Diarization) và gán nhãn thời gian (Timestamping). Kết quả đầu ra là một cấu trúc dữ liệu rõ ràng, cho biết ai đã nói, nội dung là gì và tại thời điểm nào.

Hiệu suất của mô hình được đánh giá qua ba chỉ số chính được thể hiện trong biểu đồ dưới đây: DER, cpWER và tcpWER.

https://huggingface.co/microsoft/VibeVoice-ASR

  • DER (Tỷ Lệ Lỗi Tách Người Nói): Đo lường độ chính xác trong việc gán các đoạn thoại cho đúng người nói.
  • cpWER & tcpWER (Tỷ Lệ Lỗi Từ): Các chỉ số đo lường tỷ lệ lỗi từ trong ngữ cảnh hội thoại đa người nói.

Các biểu đồ này phản ánh hiệu suất của mô hình trên dữ liệu âm thanh dài và có nhiều người nói – đúng trọng tâm mà hệ thống ASR này hướng đến.

Định dạng đầu ra có cấu trúc này rất thuận lợi cho các bước xử lý tiếp theo như tóm tắt theo từng người nói, trích xuất nhiệm vụ hành động hoặc phân tích dữ liệu. Vì tất cả thông tin về phân đoạn, người nói và thời gian đều đến từ một mô hình duy nhất, mã xử lý phía sau có thể coi bản ghi chép này như một nhật ký sự kiện được sắp xếp chính xác theo dòng thời gian.

Điểm Nổi Bật Chính

  • VibeVoice-ASR là mô hình chuyển đổi giọng nói thành văn bản thống nhất, xử lý âm thanh dài 60 phút chỉ với một lần duyệt, tận dụng ngữ cảnh lên đến 64K token.
  • Mô hình thực hiện đồng thời ASR, tách người nói và gán nhãn thời gian, xuất ra bản ghi chép có cấu trúc (Ai, Khi Nào, Nội Dung) chỉ trong một lần chạy.
  • Tính năng Từ Khóa Tùy Chỉnh cho phép đưa vào các thuật ngữ chuyên ngành để cải thiện độ chính xác nhận dạng mà không cần huấn luyện lại mô hình.
  • Được đánh giá bằng các chỉ số DER, cpWER và tcpWER, tập trung vào các kịch bản hội thoại đa người nói, phù hợp cho ghi chép cuộc họp, bài giảng và cuộc gọi dài.
  • VibeVoice-ASR được phát hành dưới dạng mã nguồn mở (giấy phép MIT) trong bộ công cụ VibeVoice, đi kèm trọng số mô hình chính thức, tập lệnh tinh chỉnh và một Playground trực tuyến để dùng thử.

Khám phá Trọng Số Mô Hình, Mã NguồnPlayground.

Bí mật:  OpenAI Ngừng Cung Cấp GPT‑4o, Mô Hình Yêu Thích Của Nhiều Người Dùng

Tags: VibeVoice-ASR, speech-to-text AI, long-form ASR

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top