Microsoft bổ sung tính năng Critique và Council vào công cụ Researcher của Copilot

**Microsoft bổ sung tính năng Critique và Council vào công cụ Researcher của Copilot**

Trí tuệ nhân tạo nghiên cứu sâu đã trở thành một trong những cuộc đua công nghệ nóng nhất trong năm nay. Google công bố công cụ nghiên cứu cho Gemini vào tháng 12 2024, OpenAI ra mắt công cụ nghiên cứu của mình vào tháng 2 2025, xAI theo sau, Perplexity tăng gấp đôi nỗ lực, và Claude của Anthropic xây dựng một lượng người dùng trung thành trong giới chuyên môn cần những câu trả lời chi tiết, có trích dẫn, khi giới thiệu công cụ của mình vào tháng 4 năm ngoái.
Mỗi công ty đều cố gắng thuyết phục bạn rằng mô hình AI duy nhất của họ là nhà nghiên cứu thông minh nhất trong lĩnh vực. Microsoft vừa nói: Tại sao phải chọn một?
Công ty công bố hai tính năng mới cho công cụ Researcher của Copilot — CritiqueCouncil — cho phép GPT của OpenAI và Claude của Anthropic làm việc trên cùng một nhiệm vụ nghiên cứu theo trình tự. Theo kết quả kiểm thử của Microsoft đối với một chuẩn công nghiệp, hệ thống kết hợp này đạt điểm cao hơn mọi hệ thống được đưa vào thử nghiệm, bao gồm cả các mô hình từ những công ty AI hàng đầu.

Critique là một hệ thống nghiên cứu sâu đa mô hình mới, được thiết kế cho các nhiệm vụ nghiên cứu phức tạp. Nó tách việc sinh nội dung ra khỏi việc đánh giá và sử dụng sự kết hợp của các mô hình từ Frontier Labs, bao gồm Anthropic và OpenAI,” Microsoft giải thích. “Một mô hình dẫn dắt giai đoạn sinh nội dung, lên kế hoạch nhiệm vụ, lặp lại quá trình tìm kiếm và tạo ra bản nháp đầu tiên, trong khi mô hình thứ hai tập trung vào việc xem xét và tinh chỉnh, đóng vai trò là người đánh giá chuyên gia trước khi bản báo cáo cuối cùng được tạo ra.”

Tại sao cần Critique

Hầu hết các công cụ nghiên cứu AI hiện nay hoạt động theo cùng một cách: bạn đặt câu hỏi, một mô hình duy nhất lên kế hoạch tìm kiếm, dò qua các nguồn, viết báo cáo và trả lại cho bạn. Mô hình duy nhất này thực hiện mọi việc mà không có ai kiểm tra lại, điều này có thể dẫn đến hiện tượng tạo ra thông tin sai, lỗi trích dẫn, hoặc các khẳng định không chính xác.

Bí mật:  OpenAI đưa quảng cáo vào ChatGPT

Critique phá vỡ quy trình này thành hai phần. GPT chịu trách nhiệm giai đoạn đầu — lên kế hoạch nghiên cứu, thu thập nguồn tài liệu và viết bản nháp đầu tiên. Claude sau đó đóng vai trò là biên tập viên nghiêm khắc, rà soát báo cáo về độ chính xác thực tế, chất lượng trích dẫn và việc câu trả lời có thực sự đáp ứng câu hỏi hay không. Chỉ sau khi qua bước đánh giá này, báo cáo cuối cùng mới được gửi tới người dùng. Microsoft cho biết các vai trò có thể trong tương lai hoán đổi, với Claude soạn thảo và GPT thực hiện việc phê bình, nhưng hiện tại GPT luôn đi trước.

Kết quả chuẩn DRACO của Microsoft

Trong bảng chuẩn DRACO — một bài kiểm tra tiêu chuẩn bao gồm 100 nhiệm vụ nghiên cứu phức tạp trên 10 lĩnh vực như y tế, luật và công nghệ — Copilot với Critique đạt 57,4 điểm, trong khi Claude Opus 4.6 của Anthropic chỉ đạt 42,7. Hệ thống kết hợp của Microsoft vượt mức kết quả tốt nhất tiếp theo khoảng 14 %.
Các cải tiến lớn nhất xuất hiện ở độ bao phủ của phân tích, chất lượng trình bày và độ chính xác thực tế.

Council — so sánh song song

Tính năng thứ hai, Council, lại theo một cách tiếp cận khác. Thay vì một mô hình đánh giá công việc của mô hình kia, Council chạy GPT và Claude đồng thời và đặt các báo cáo đầy đủ của chúng cạnh nhau. Một mô hình “giám khảo” thứ ba sau đó đọc cả hai báo cáo và viết một bản tóm tắt giải thích nơi hai AI đồng ý, nơi chúng khác nhau, và những góc nhìn độc đáo mà mỗi bên nắm bắt được mà bên kia bỏ lỡ.

Bí mật:  Chính phủ Trung Quốc đã cho phép DeepSeek nhập khẩu chip AI H200 của NVIDIA, theo báo cáo của Reuters

Trong Critique các mô hình hợp tác; trong Council chúng cạnh tranh.
Để truy cập Council, người dùng chỉ cần chọn “Model Council” trong danh sách lựa chọn; Critique là trải nghiệm mặc định trong Researcher.
Cả hai tính năng hiện đang có sẵn cho người dùng đăng ký chương trình Frontier của Microsoft, kênh truy cập sớm cho các khả năng mới nhất của Copilot. Để sử dụng, cần có giấy phép Microsoft 365 Copilot (30 USD / người dùng / tháng) và phải đăng ký vào Frontier.

Ảnh chụp màn hình chương trình Frontier của Microsoft

OpenAI và Microsoft có mối quan hệ đối tác trị giá hàng tỉ đô la, nhưng cược của Microsoft là không có mô hình nào duy nhất giữ vị trí số một mãi mãi, và giá trị thực sự nằm ở lớp điều phối — lớp này sẽ định tuyến nhiệm vụ tới bất kỳ sự kết hợp mô hình nào hoạt động tốt nhất.

Tags: AI Research, Microsoft Copilot, Critique Council
Tags: AI Research, Microsoft Copilot, Critique Council

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top