Google ra mắt Gemini 3 Flash làm mô hình mặc định, tăng tốc độ và mở rộng khả năng cho doanh nghiệp

Google chính thức đưa Gemini 3 Flash trở thành mô hình AI mặc định, nhắm tới tốc độ nhanh hơn, chi phí thấp hơn và hỗ trợ xử lý đa phương thức (văn bản, hình ảnh, âm thanh, video). Nhờ dùng ít token hơn và dễ mở rộng khi triển khai, đây là lựa chọn phù hợp cho người dùng hằng ngày, nhà phát triển lẫn doanh nghiệp.

Google ra mắt Gemini 3 Flash làm mô hình mặc định

Gemini 3 Flash hiện là mô hình đứng sau trải nghiệm Gemini chính trong ứng dụng, đồng thời xuất hiện trong nhiều dịch vụ của Google có tích hợp chế độ AI. Người dùng vẫn có thể chuyển sang Gemini 3 Pro cho các tác vụ nặng hơn, nhưng Flash sẽ là lựa chọn mặc định mà đa số người dùng được dùng ngay từ đầu.

Google định vị Gemini 3 Flash là một mô hình thuộc nhóm tiên phong, được tối ưu để cân bằng giữa tốc độ, chi phí và mức độ “thông minh”, nhằm đáp ứng tốt cả nhu cầu cá nhân lẫn các hệ thống triển khai ở quy mô lớn.

Tốc độ và hiệu năng

Theo các bài đo độc lập, Gemini 3 Flash nhanh hơn khoảng 3 lần so với Gemini 2.5 Pro; thời gian tạo token đầu tiên (time to first token) thường dưới 1 giây với các lời nhắc (prompt) phổ biến. Mô hình có thể xuất (stream) khoảng 218 token mỗi giây—cao hơn đáng kể so với dòng Pro trước đây—giúp phản hồi trong chat và ứng dụng gần như tức thì.

Bí mật: ChatGPT AI Smart Glasses – Ưu đãi Amazon Tháng 3 2026

Trong các bài kiểm tra về suy luận như SWE-bench Verified dành cho tác nhân lập trình (coding agents), Gemini 3 Flash đạt khoảng 78%, vượt Gemini 2.5 và thậm chí nhỉnh hơn Gemini 3 Pro ở riêng thước đo này. Google cũng cho biết với các tác vụ thường gặp, Flash dùng trung bình ít hơn khoảng 30% token so với 2.5 Pro, nhờ đó giảm chi phí khi vận hành ở quy mô lớn.

Năng lực kỹ thuật

Gemini 3 Flash dùng chung kiến trúc lõi với Gemini 3 Pro, nhưng được tinh chỉnh để giảm độ trễ và tăng thông lượng. Mô hình hỗ trợ đầy đủ xử lý đa phương thức, cho phép kết hợp văn bản, hình ảnh, âm thanh và video trong cùng một prompt cho các tác vụ như phân tích video hoặc hỏi–đáp thị giác (visual question answering).

Mô hình cũng được thiết kế để phù hợp với các quy trình dạng “agent” và khả năng dùng công cụ (tool use). Nhờ đó, nó có thể gọi công cụ/API bên ngoài, phân tích các bộ tài liệu lớn và vận hành các tác nhân lập trình ngay trong môi trường phát triển tích hợp (IDE). Google nhấn mạnh hiệu quả ở các tác vụ sinh mã và gỡ lỗi: chất lượng lập trình tiệm cận “đẳng cấp Pro” nhưng vẫn giữ được tốc độ phản hồi nhanh trong các vòng lặp phản hồi ngắn và liên tục.

Bí mật: 5 ứng dụng mã nguồn mở trở nên ĐÁNG GIÁ HƠN NHIỀU khi nâng cấp lên bản cao cấp

Giá và tính năng dành cho doanh nghiệp

Thông qua Gemini API và Vertex AI, Gemini 3 Flash có mức giá khoảng 0,50 USD cho mỗi 1 triệu token đầu vào và 3 USD cho mỗi 1 triệu token đầu ra—rẻ hơn đáng kể so với Gemini 3 Pro và dòng 2.5 Pro trước đó. Phần đầu vào âm thanh được tính phí riêng, khoảng 1 USD cho mỗi 1 triệu token (tức âm thanh được hệ thống quy đổi sang token để tính phí).

Google cũng cung cấp tính năng context caching, có thể giúp giảm chi phí token tới 90% với các ngữ cảnh được dùng lặp lại trong ứng dụng doanh nghiệp. Điều này đặc biệt hữu ích cho chatbot hoặc agent thường xuyên tái sử dụng cùng một bộ hướng dẫn dài hoặc cùng một kho tri thức. Với các công ty lớn, cấu trúc chi phí như vậy giúp dễ triển khai các tải công việc khối lượng cao như trợ lý chăm sóc khách hàng, “copilot” nội bộ hoặc bot phân tích.

Tác động đối với người dùng và doanh nghiệp

Với người dùng phổ thông của ứng dụng Gemini, thay đổi này đồng nghĩa phản hồi nhanh hơn, khả năng hiểu nội dung đa phương thức tốt hơn và các tính năng lập kế hoạch linh hoạt hơn mà không cần tự chọn mô hình nâng cao. Việc nâng cấp được triển khai tự động, nên bất kỳ ai đang dùng Gemini đều sẽ hưởng lợi từ mô hình mặc định mới.

Bí mật: Giao diện web gọn nhẹ này giúp Docker Compose dễ dùng hơn cả Portainer

Đối với nhà phát triển và doanh nghiệp, Gemini 3 Flash cung cấp năng lực suy luận gần mức Pro nhưng độ trễ và chi phí thấp hơn đáng kể, phù hợp cho giao diện thời gian thực, agent triển khai thực tế và xử lý theo lô (batch) ở quy mô lớn. Nói cách khác, Flash trở thành “mô hình chủ lực” trong hệ Gemini cho đa số tình huống mà tốc độ, khả năng mở rộng và chi phí quan trọng hơn việc đạt mức chính xác cao nhất tuyệt đối.

Tags: Gemini 3 Flash, Vertex AI, AI doanh nghiệp