OpenAI bổ sung các tính năng trí tuệ âm thanh mới vào API

Image Credits: Jakub Porzycki/NurPhoto / Getty Images

OpenAI vào ngày thứ Năm cho biết API của mình sẽ bổ sung một loạt tính năng trí tuệ âm thanh mới, nhằm hỗ trợ các nhà phát triển tạo ứng dụng có khả năng nói chuyện, chuyển đổi giọng nói thành văn bản và dịch các cuộc trò chuyện với người dùng.

Mô hình giọng nói mới GPT‑Realtime‑2 của công ty là một mô hình khác, được xây dựng để tạo ra mô phỏng âm thanh thực tế, cho phép trò chuyện với người dùng. Khác với phiên bản tiền nhiệm (GPT‑Realtime‑1.5), GPT‑Realtime‑2 được trang bị khả năng suy luận cấp GPT‑5, theo OpenAI, nhằm đáp ứng các yêu cầu phức tạp hơn từ người dùng.

OpenAI cũng ra mắt GPT‑Realtime‑Translate, như tên gọi, cung cấp dịch vụ dịch thời gian thực “đi cùng nhịp” với người dùng trong các cuộc hội thoại. Tính năng này hỗ trợ hơn 70 ngôn ngữ đầu vào (các ngôn ngữ mà nó có thể hiểu) và 13 ngôn ngữ đầu ra (các ngôn ngữ mà nó truyền tới người nghe).

Cuối cùng, công ty giới thiệu khả năng chuyển đổi giọng nói sang văn bản mới, GPT‑Realtime‑Whisper, cho phép người dùng nhận kết quả chuyển đổi ngay trong khi tương tác đang diễn ra.

“Cùng với các mô hình mà chúng tôi đang ra mắt, âm thanh thời gian thực sẽ chuyển từ dạng gọi‑và‑trả lời đơn giản sang các giao diện giọng nói thực sự có thể thực hiện công việc: lắng nghe, suy luận, dịch, chuyển đổi thành văn bản và hành động khi cuộc trò chuyện diễn ra,” công ty cho biết.

Ai sẽ được hưởng lợi từ những cập nhật này?

Bí mật: Trí tuệ nhân tạo mạnh nhất của Apple trên thiết bị chỉ khả dụng trên iPhone 17 Pro trở lên

Các công ty muốn mở rộng khả năng hỗ trợ khách hàng là đối tượng rõ ràng. OpenAI cũng lưu ý rằng các tính năng mới có thể hỗ trợ nhiều lĩnh vực, bao gồm giáo dục, truyền thông, sự kiện và các nền tảng sáng tạo, v.v.

Mặc dù các công cụ này mạnh mẽ đối với doanh nghiệp, nhưng cũng tiềm ẩn nguy cơ lạm dụng. OpenAI cho biết đã xây dựng các biện pháp bảo vệ để ngăn chặn việc lạm dụng tính năng cho spam, gian lận hoặc các hành vi xấu khác trên mạng. Các cơ chế kích hoạt cụ thể có thể dừng cuộc trò chuyện nếu vi phạm hướng dẫn nội dung gây hại của công ty.

Tất cả các mô hình giọng nói mới đều được tích hợp trong Realtime API của OpenAI. Translate và Whisper được tính phí theo phút, trong khi GPT‑Realtime‑2 tính phí dựa trên lượng token tiêu thụ.

OpenAI, Voice AI, Real-time API