Tháng trước, Summer Yue – một giám đốc điều hành tại Meta – đã chia sẻ chi tiết về một sự cố liên quan đến trợ lý AI nổi tiếng Claudbot (nay là OpenClaw). Theo Yue, hệ thống này bất ngờ bắt đầu xóa hộp thư email của cô.Dù đã được yêu cầu phải xác nhận trước khi thực hiện bất kỳ hành động nào, trợ lý AI vẫn phớt lờ chỉ dẫn và nhiều lần từ chối dừng quá trình xóa dữ liệu.
Việc một nhà nghiên cứu dày dạn kinh nghiệm trong lĩnh vực “căn chỉnh AI” cũng không thể ngăn chặn sự cố, thậm chí không thể lập tức tắt hệ thống, đã làm dấy lên nhiều lo ngại về các cơ chế kiểm soát cần thiết trước khi triển khai các tác nhân AI trong môi trường doanh nghiệp.
Nếu thiếu quản trị và giám sát chính thức, các hệ thống này có thể gây rò rỉ dữ liệu nhạy cảm, khóa API, thậm chí phá hủy toàn bộ hệ thống tệp.

OpenClaw AI (Open Claw). Ảnh minh họa
Một nghiên cứu gần đây của MIT cũng chỉ ra những rủi ro bảo mật đáng kể đối với 13 tác nhân tự động tiên tiến nhất hiện nay. Báo cáo cho thấy chỉ 4 trong số đó từng được đánh giá về độ an toàn, trong khi vẫn chưa có bộ tiêu chuẩn chung quy định cách các tác nhân AI nên hoạt động trên môi trường trực tuyến.
Hiện nay, các tác nhân AI vẫn được xem là công nghệ tiềm năng nhưng đi kèm nhiều rủi ro. Tuy nhiên, theo các chuyên gia, những rủi ro này có thể được giảm thiểu thông qua cơ chế quản trị và giám sát chặt chẽ. Trong cuộc trao đổi gần đây với Assaf Elovic – lãnh đạo bộ phận AI tại nền tảng quản lý dự án Monday, John Kindervag – cha đẻ của khung bảo mật “zero trust” và chuyên gia tại Illumio, cùng Yaron Kassner – CTO kiêm đồng sáng lập hãng an ninh mạng Silverfort, nhiều khuyến nghị quan trọng đã được đưa ra nhằm đảm bảo việc triển khai AI trong doanh nghiệp an toàn hơn.
Yếu tố con người là điều quan trọng nhất
Theo các chuyên gia, các tổ chức ứng dụng AI cần thiết lập hệ thống kiểm soát và cân bằng chặt chẽ, trong đó con người phải tham gia vào những quyết định quan trọng.
“Yếu tố con người là điều quan trọng nhất mà tôi luôn khuyến nghị các công ty áp dụng”, Elovic – người tạo ra tác nhân nghiên cứu chuyên sâu đầu tiên GPT Researcher – cho biết.
Ông nhấn mạnh rằng bất kỳ hành động quan trọng nào của tác nhân AI cũng nên có bước kiểm tra trước khi thực hiện. Ví dụ, nếu hệ thống cần ghi dữ liệu vào tệp, nó phải yêu cầu sự phê duyệt từ người dùng trước khi tiến hành.
Việc áp dụng mô hình “human-in-the-loop” không chỉ tăng cường trách nhiệm trong sử dụng AI mà còn giúp phát hiện và điều chỉnh kịp thời các sai lệch do hiện tượng “ảo giác” của AI, từ đó hạn chế rủi ro đối với hệ thống và dữ liệu.

Các tổ chức ứng dụng AI cần thiết lập hệ thống kiểm soát và cân bằng chặt chẽ, trong đó con người phải tham gia vào những quyết định quan trọng.
Áp dụng mô hình bảo mật Zero Trust
Một giải pháp khác được khuyến nghị là triển khai nguyên tắc “không tin tưởng tuyệt đối” (Zero Trust). Theo mô hình này, mọi người dùng và hệ thống – bao gồm cả tác nhân AI – chỉ được cấp quyền truy cập ở mức tối thiểu cần thiết để thực hiện nhiệm vụ.
Kindervag cho rằng việc giám sát lưu lượng truy cập là bước đầu tiên và quan trọng nhất trong bảo mật. “Bạn không thể bảo vệ những gì bạn không nhìn thấy”, ông nói.
Theo ông, AI không tự quan tâm đến vấn đề bảo mật dữ liệu, vì vậy các lớp bảo vệ phải được tích hợp từ bên ngoài. Điều này bao gồm việc theo dõi luồng dữ liệu, kiểm soát cách các công cụ AI truy cập và tương tác với hệ thống dữ liệu của doanh nghiệp.
Mục tiêu cuối cùng là giám sát toàn bộ lưu lượng do tác nhân AI tạo ra, đánh giá tính hợp lệ của các truy cập và kiểm soát quá trình truyền tải dữ liệu theo nguyên tắc “cần biết”, đồng thời ghi lại nhật ký mọi hoạt động.
Xác định rõ danh tính và quyền truy cập
Theo Yaron Kassner, bước quan trọng tiếp theo là xác định rõ tác nhân AI đang truy cập vào những dữ liệu nào và hành động thay mặt cho ai.
“Nếu một tác nhân có thể thực hiện các hành động quan trọng, doanh nghiệp phải trả lời được ba câu hỏi: nó đang hành động thay cho ai, nó được phép làm gì và làm thế nào để dừng nó ngay lập tức nếu hành vi thay đổi”, Kassner cho biết.
Việc xây dựng mô hình nhận dạng và quản lý quyền truy cập rõ ràng sẽ giúp doanh nghiệp triển khai các biện pháp kiểm soát theo thời gian thực, giám sát hành vi, tăng cường xác minh và yêu cầu phê duyệt từ con người khi cần thiết.
Những biện pháp này cũng giúp hạn chế rủi ro trong trường hợp tác nhân AI bị tấn công hoặc bị khai thác thông qua các kỹ thuật như tiêm mã độc.
Thiết lập “lan can” bảo vệ cho AI
Theo Elovic, nhiều rủi ro liên quan đến AI xuất phát từ việc người dùng đưa ra yêu cầu không chính xác hoặc thiếu kiểm soát. Do đó, các doanh nghiệp cần thiết lập những “lan can” bảo vệ rõ ràng cho hệ thống AI.
“Các hướng dẫn và giới hạn phải được xác định ngay từ đầu trước khi bắt đầu tương tác với tác nhân”, ông nói.
Điều này đòi hỏi doanh nghiệp xây dựng chính sách nội bộ rõ ràng, trong đó xác định những hành động mà hệ thống AI được phép thực hiện. Danh sách này có thể được cập nhật và áp dụng cho các tác nhân AI trong toàn tổ chức.
Bên cạnh đó, bộ nhớ của hệ thống cũng có thể được thiết lập để ghi nhớ các quy tắc và ưu tiên trong những lần tương tác sau. Dù không phải giải pháp hoàn hảo, cơ chế này vẫn giúp tạo ra các rào cản cơ bản nhằm hạn chế nguy cơ lạm dụng hoặc gây thiệt hại khi sử dụng trợ lý AI.










