OpenAI ra mắt ba mô hình trí tuệ nhân tạo (AI) mới

Khi bạn mua hàng qua các liên kết trong bài viết của chúng tôi, Future và các đối tác phân phối có thể nhận hoa hồng.

Nếu bạn là người dùng thường xuyên của ChatGPT, có thể bạn đã biết rằng bạn không nhất thiết phải tương tác với chatbot trí tuệ nhân tạo (AI) chỉ bằng văn bản — nó còn có thể nói chuyện với bạn và tiếp nhận các yêu cầu bằng giọng nói nữa. Hiện nay, nhà sản xuất ChatGPT, OpenAI, đã công bố ba mô hình giọng nói mới mà họ cho rằng sẽ “mở khóa một lớp ứng dụng giọng nói mới cho các nhà phát triển.”

Mỗi mô hình giọng nói AI được thiết kế cho một mục đích riêng, bao gồm suy luận sâu, dịch thuật và chuyển đổi giọng nói thành văn bản. Nếu bạn đang tìm kiếm một mô hình giọng nói phù hợp, bạn có thể thử ngay.

Theo OpenAI, các mô hình mới bao gồm:

GPT‑Realtime‑2 – mô hình giọng nói đầu tiên có khả năng suy luận cấp GPT‑5, có thể xử lý các yêu cầu phức tạp hơn và duy trì cuộc trò chuyện một cách tự nhiên.
GPT‑Realtime‑Translate – mô hình dịch thuật thời gian thực, chuyển đổi giọng nói từ hơn 70 ngôn ngữ đầu vào sang 13 ngôn ngữ đầu ra đồng thời bắt kịp tốc độ nói của người dùng.
GPT‑Realtime‑Whisper – mô hình chuyển giọng nói thành văn bản dạng luồng, ghi lại lời nói ngay khi người nói đang nói.

Bí mật: Siri của Apple bị trì hoãn… một lần nữa

Bài đăng tin tức của OpenAI giải thích rằng các nhà phát triển sử dụng mô hình giọng nói AI theo ba cách riêng biệt:

Yêu cầu AI thực hiện một nhiệm vụ.
Để AI giải thích một tình huống (ví dụ như trì hoãn chuyến bay) cho người dùng.
Thực hiện các cuộc hội thoại bằng ngôn ngữ địa phương của người dùng.

Những trường hợp sử dụng này là mục tiêu mà OpenAI hướng tới với các mô hình giọng nói mới. Cả ba đều có sẵn qua Realtime API của OpenAI. Giá cả:

GPT‑Realtime‑2 – 32 USD cho mỗi 1 triệu token đầu vào và 64 USD cho mỗi 1 triệu token đầu ra.
GPT‑Realtime‑Translate – 0,034 USD mỗi phút.
GPT‑Realtime‑Whisper – 0,017 USD mỗi phút.

Ba công cụ mới cho nhà phát triển

Nếu bạn đang tìm kiếm một mô hình AI có khả năng suy luận sâu và thích nghi với luồng hội thoại, GPT‑Realtime‑2 mới được thiết kế dành cho bạn. Các nhà phát triển có thể dùng nó để kiểm tra nhiều nguồn đồng thời, điều chỉnh tông giọng dựa trên đầu vào của người dùng, khai thác khả năng suy luận nâng cao và phân tích các thuật ngữ chuyên ngành (ví dụ: danh từ riêng và các biểu đạt trong lĩnh vực y tế và sản xuất).
Đối với các ứng dụng dịch thuật, GPT‑Realtime‑Translate chuyển đổi giọng nói theo thời gian thực. Người dùng có thể nói bằng ngôn ngữ của mình và nhận được bản dịch cùng bản ghi lại ngay lập tức, hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra.
Nếu bạn cần âm thanh được chuyển thành văn bản nhanh chóng và chính xác, GPT‑Realtime‑Whisper tạo phụ đề trực tiếp, ghi chú cuộc họp và tóm tắt khi cuộc trò chuyện diễn ra, khiến “sản phẩm thời gian thực cảm thấy nhanh hơn, phản hồi tốt hơn và tự nhiên hơn.”

Bạn có thể thử bất kỳ mô hình mới nào trong Playground của OpenAI. Nếu bạn đang sử dụng Codex, OpenAI đã tạo một prompt để thêm GPT‑Realtime‑2 trực tiếp vào nền tảng agentic coding.

Bí mật: 40+ Kiểu Prompt Hình Ảnh AI Biến Ảnh Thông Thường Thành Tác Phẩm Nghệ Thuật

OpenAI, Voice AI, GPT-Realtime