BẢO MẬT AN TOÀN DỮ LIỆU TRONG CÁC HỆ THỐNG CHAT BOT AI SỬ DỤNG KIẾN TRÚC RETRIEVAL AUGMENTED GENERATION(RAG)

Phạm Tiến Huy; Hoàng Anh Dũng; Nguyễn Văn Mạnh

Phạm Tiến Huy
Hoàng Anh Dũng
Nguyễn Văn Mạnh

Từ khóa: tạo sinh tăng cường bằng truy xuất (RAG), bảo mật dữ liệu, mô hình ngôn ngữ lớn (LLMs), tấn công tiêm mã lệnh (Prompt Injection), tấn công đầu độc dữ liệu, kiểm soát truy cập, bảo mật Chat bot AI

Tóm tắt

Kiến trúc Retrieval-Augmented Generation (RAG) đã cách mạng hóa khả năng của chat bot AI, cho phép chúng cung cấp câu trả lời dựa trên kho kiến thức riêng, cập nhật và chính xác. Tuy nhiên, sự tích hợp chặt chẽ giữa hệ thống truy xuất dữ liệu và Mô hình Ngôn ngữ Lớn (LLM) đã tạo ra một bề mặt tấn công mới, đặt ra những thách thức bảo mật nghiêm trọng. Bài viết này trình bày một phân tích tổng hợp về các rủi ro và lỗ hổng bảo mật đặc thù của hệ thống RAG, dựa trên các nghiên cứu học thuật tiên phong. Chúng tôi hệ thống hóa các mối đe dọa theo từng giai đoạn của kiến trúc, bao gồm đầu độc dữ liệu, tấn công truy xuất, tiêm mã độc vào câu lệnh (prompt injection) và rò rỉ dữ liệu nhạy cảm. Từ đó, bài viết đề xuất một khung chiến lược bảo mật đa lớp, tập trung vào quản trị dữ liệu chủ động, kiểm soát truy cập nghiêm ngặt và các cơ chế phòng thủ động như “lan can” (guardrails). Nghiên cứu này nhằm cung cấp một lộ trình rõ ràng cho các nhà phát triển và tổ chức để xây dựng các hệ thống RAG không chỉ thông minh mà còn an toàn và đáng tin cậy.

BẢO MẬT AN TOÀN DỮ LIỆU TRONG CÁC HỆ THỐNG CHAT BOT AI SỬ DỤNG KIẾN TRÚC RETRIEVAL AUGMENTED GENERATION(RAG)

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS