Tôi Đã Thử Ứng Dụng Chuyển Giọng Nói AI Chạy Trên Thiết Bị Mới Của Google Cho iPhone Và Kết Quả Chính Xác Đến Bất Ngờ

Google vừa tung ra thêm một dịch vụ AI mới – lần này là ứng dụng chuyển giọng nói thành văn bản hoạt động hoàn toàn ngoại tuyến, dựa trên mô hình “Gemma”. Thay vì tích hợp tính năng này vào ứng dụng Gemini, công ty đã phát hành riêng một ứng dụng dành cho iPhone mang tên Google AI Edge Eloquent.
Tôi đã quyết định trải nghiệm ứng dụng ngay trong ngày ra mắt, dù chính sách bảo mật khiến tôi phần nào e dè. Theo Google, các dữ liệu như vị trí, danh bạ, mã định danh, thông tin chẩn đoán thiết bị, thông tin liên hệ, nội dung do người dùng tạo, dữ liệu sử dụng và “các dữ liệu khác” có thể được liên kết với danh tính của bạn. Trong khi đó, thông tin mua hàng và một số dữ liệu chẩn đoán khác có thể được thu thập nhưng không gắn với định danh cá nhân. Đây là một khối lượng dữ liệu khá lớn đối với một ứng dụng vốn quảng cáo rằng “âm thanh, các cuộc trò chuyện riêng tư và dữ liệu cá nhân sẽ không bao giờ rời khỏi thiết bị của bạn”. Vì vậy, tôi vẫn còn phân vân liệu có nên tải về hay không. Như câu nói nổi tiếng: nếu dịch vụ miễn phí, thì chính bạn là sản phẩm. Tôi đã liên hệ với Google để làm rõ vấn đề này và sẽ cập nhật ngay khi nhận được phản hồi.

Bí mật: Ấn tượng đầu tiên về Alexa+: Trợ lý số thế hệ mới tích hợp AI của Amazon

Cách trải nghiệm ứng dụng chuyển giọng nói AI mới của Google

Sau khi tải ứng dụng, quy trình thiết lập ban đầu rất đơn giản: bạn chỉ cần ghi âm một câu mẫu theo yêu cầu, sau đó lựa chọn giữa hai chế độ:

Chế độ trên thiết bị (On-device): Hoạt động hoàn toàn ngoại tuyến, mọi bản ghi âm chỉ được lưu trữ cục bộ trên thiết bị của bạn.
Chế độ tinh chỉnh văn bản nâng cao (Enhanced text polishing): Âm thanh vẫn được giữ trên thiết bị, nhưng văn bản sau khi chuyển đổi sẽ được gửi lên đám mây để Gemini chỉnh sửa và tối ưu hóa.

Theo thiết kế, ứng dụng sẽ tự động lọc bỏ các từ đệm như “ừ”, “à”. Mặc định, ứng dụng khởi động ở chế độ “Tinh chỉnh văn bản nâng cao”, nhưng bạn có thể dễ dàng chuyển sang “Chế độ trên thiết bị” bằng cách gạt công tắc ở góc trên bên phải màn hình.
Ban đầu, tôi gặp một chút trục trặc khi khởi động ứng dụng: mỗi lần thử, nó đều báo lỗi “không nhận diện được giọng nói”. Sau khi kết nối rồi ngắt kết nối lại cặp tai nghe AirPods, ứng dụng cuối cùng cũng hoạt động ổn định. Để kiểm tra hiệu suất, tôi đã phát phần mở đầu của video YouTube từ kênh Audio University này – toàn bộ là đoạn hội thoại. Ứng dụng bắt đầu chuyển đổi giọng nói thành văn bản với độ chính xác gần như tuyệt đối. Thi thoảng có một vài từ bị sai, nhưng ngay khi có thêm ngữ cảnh, ứng dụng sẽ tự động sửa lại. Đến hết video, bản ghi chép gần như trùng khớp hoàn toàn với nội dung gốc, chỉ còn sót lại vài sai sót nhỏ (ví dụ: nghe nhầm “If this is our first time meeting” thành “This is our first time meeting” và một câu bị lặp lại).
Sau khi có bản chuyển đổi, bạn có thể thực hiện các thao tác sau:

Nhấn vào biểu tượng cây bút chì trên bản ghi để chỉnh sửa thủ công bất kỳ đoạn văn bản nào đã được AI tối ưu.
Xem mục Thống kê sử dụng (bao gồm tổng số từ đã nói, tốc độ nói tính bằng từ/phút và số lần AI thực hiện chỉnh sửa).
Nếu bật tính năng Gemini, bạn sẽ có thêm các công cụ chỉnh sửa bằng AI như: Tóm tắt ý chính (Key Points), Văn phong trang trọng (Formal), Rút gọn (Short), và Mở rộng (Long).
Khi hài lòng với kết quả, nhấn nút sao chép để lưu văn bản vào bộ nhớ tạm.
Tab Lịch sử lưu trữ các bản chuyển đổi trước đó, cho phép bạn xem lại và chỉnh sửa bất cứ lúc nào.
Tab Từ điển tùy chỉnh cho phép bạn thêm các từ ngữ chuyên ngành hoặc hiếm gặp nhằm cải thiện độ chính xác cho những lần sử dụng sau.

Bí mật: OpenAI và CEO Sam Altman đang phát triển gì?

Trong quá trình thử nghiệm ngắn hạn, tôi nhận thấy ứng dụng hoạt động rất tốt và đánh giá cao khả năng bảo mật khi giữ toàn bộ dữ liệu trên thiết bị. Nếu ứng dụng này thực sự nhanh hơn hoặc chính xác hơn so với tính năng chuyển giọng nói có sẵn trên iOS, tôi sẽ cân nhắc sử dụng nó thường xuyên, đặc biệt là nhờ vào các tính năng bổ sung hữu ích mà nó mang lại.
Tags: Google AI, Speech-to-Text, iPhone