Secure Minions: Hợp tác an toàn giữa Ollama và các mô hình AI tiên tiến

Ba tháng trước, phòng nghiên cứu Hazy Research tại Đại học Stanford đã giới thiệu Minions ([ICML 2025](https://arxiv.org/abs/2502.15964)), một dự án [mã nguồn mở](https://github.com/hazyResearch/minions/) cho phép kết nối các mô hình Ollama chạy trên máy tính cá nhân (ví dụ như [gemma3:4b](https://ollama.com/library/gemma3) của Google) với các mô hình AI hiện đại mạnh mẽ trên nền tảng đám mây (chẳng hạn như GPT-4o). Trong Minions, toàn bộ dữ liệu đầu vào sẽ được giữ lại trên máy tính của người dùng, chỉ các mô hình ngôn ngữ lớn (LLM) chạy cục bộ mới truy cập được. Các mô hình AI trên đám mây có nhiệm vụ phối hợp, tổng hợp kết quả từ các LLM cục bộ này. Nhờ chỉ gửi lên đám mây một lượng nhỏ thông tin, giải pháp này giúp giảm chi phí sử dụng dịch vụ đám mây từ 5 đến 30 lần, trong khi vẫn đạt tới 98% độ chính xác so với mô hình đám mây.

Ngoài việc tiết kiệm chi phí, ưu thế lớn của việc ưu tiên xử lý trên máy cá nhân (như với Ollama) là bảo mật thông tin: dữ liệu nhạy cảm không bị gửi ra khỏi thiết bị. Tuy nhiên, ở phiên bản Minions gốc, một phần dữ liệu vẫn cần gửi lên đám mây và đôi khi có thể chứa thông tin riêng tư.

[Avanika Narayan](https://x.com/Avanika15) và [Dan Biderman](https://x.com/dan_biderman) từ [phòng thí nghiệm Hazy Research](https://x.com/hazyresearch) của Stanford đã đặt câu hỏi: liệu có thể mã hóa toàn bộ quá trình trao đổi giữa máy cá nhân và máy chủ từ xa một cách chặt chẽ, đến mức ngay cả bên cung cấp dịch vụ đám mây cũng không thể xem được dữ liệu?

Nhóm nghiên cứu đã xây dựng một giao thức bảo mật mạnh mẽ dựa trên chế độ “tính toán bảo mật” mới do NVIDIA giới thiệu trên dòng GPU Hopper H100.

#### Nguyên lý hoạt động

* Máy tính của người dùng và GPU H100 sẽ trao đổi khóa mã hóa. * GPU xác minh tính an toàn và chế độ bảo mật của mình bằng phương pháp xác thực từ xa (remote attestation), đảm bảo mọi hoạt động diễn ra trong môi trường được kiểm soát nghiêm ngặt. * Sau khi xác minh, H100 trở thành một “vùng xử lý an toàn” (enclave): tất cả bộ nhớ và quá trình tính toán đều được mã hóa, kể cả người quản trị hệ thống cũng không thể truy cập vào dữ liệu gốc. * Dữ liệu từ LLM cục bộ sẽ được mã hóa trước khi gửi vào vùng bảo mật trên GPU, được giải mã và xử lý an toàn bởi LLM trên đám mây. Kết quả trả về cũng được mã hóa trước khi gửi lại cho máy người dùng.

Như vậy, toàn bộ dữ liệu chưa mã hóa đều được bảo vệ tuyệt đối — không bị lộ ra ngoài, cả khi truyền đi lẫn khi xử lý trên máy chủ từ xa.

Ngay cả với những đoạn văn dài (~8.000 token) và các mô hình lớn như Qwen-32B, mức độ chậm thêm là rất nhỏ: độ trễ chỉ tăng dưới 1%.

Giải pháp hợp tác bảo mật giữa các mô hình AI giờ đây không còn là ý tưởng trên giấy — mà đã thực sự thành hiện thực!

Để tìm hiểu chi tiết về kỹ thuật, bạn có thể [xem bài viết trên blog của HazyResearch](https://hazyresearch.stanford.edu/blog/2025-05-12-security).

Hướng dẫn bắt đầu

Tải mã nguồn về:

“`bash git clone https://github.com/HazyResearch/minions.git

cd minions “`

Bạn có thể tạo môi trường ảo bằng bất kỳ công cụ nào mình thích (conda, venv, uv,…):

“`bash python3 -m venv .venv

source .venv/bin/activate “`

Tiếp theo, cài đặt gói Python và các thư viện phụ thuộc:

“`bash pip install -e . “`

Nếu chưa có, hãy cài đặt [Ollama](https://ollama.com/download) và mô hình Gemma 3 của Google:

“`bash ollama pull gemma3:4b “`

Chạy chế độ bảo mật trong ứng dụng

Ứng dụng streamlit đi kèm sẽ giúp bạn trải nghiệm tương tác cả hai giao thức Minion và MinionS. Để khởi động, chạy lệnh:

“`bash streamlit run app.py “`

Trình duyệt sẽ tự động mở. Trong phần Remote Provider, chọn “Secure”. Điền Secure Endpoint URL là [http://20.57.33.122:5056](http://20.57.33.122:5056/). Ở phía máy bạn, chọn Ollama và mô hình muốn sử dụng.

![demo secure minions](https://files.ollama.com/minionsecure_demo.png)

Ví dụ mã nguồn

Để triển khai giao thức bảo mật bằng Python, bạn có thể sử dụng gói `minions`.

Tạo một file có tên `example.py` với nội dung như sau:

“`python from minions.clients.secure import SecureClient from minions.clients.ollama import OllamaClient from minions.minion import Minion

remote_client = SecureClient( endpoint_url=”http://20.57.33.122:5056″, verify_attestation=True, )

local_client = OllamaClient(model_name=”gemma3:4b”)

protocol = Minion(local_client=local_client, remote_client=remote_client)

task = “How many grand slams did he win” context =