Nâng cao hiệu năng truy xuất của mô hình Embedding thông qua huấn luyện tinh chỉnh trên dữ liệu tạo sinh trong RAG Chatbot cho lĩnh vực Khoa học quân sự Việt Nam
Tóm tắt
Retrieval-Augmented Generation (RAG) là một công nghệ kết hợp giữa truy xuất thông tin và mô hình ngôn ngữ lớn, cho phép chatbot cung cấp câu trả lời chính xác bằng cách truy vấn các tài liệu liên quan từ kho dữ liệu trước khi tạo ra các phản hồi. Mặc dù RAG chatbot đã cho thấy hiệu quả trong nhiều ứng dụng, nhưng vẫn tồn tại hạn chế trong các lĩnh vực dữ liệu tiếng Việt chuyên ngành, đặc biệt là trong lĩnh vực khoa học quân sự. Để giải quyết thách thức này, bài báo đề xuất một framework để fine-tune các mô hình embedding trên tập dữ liệu tạo sinh bởi ChatGPT nhằm nâng cao hiệu năng truy xuất thông tin trong ứng dụng hỏi đáp lịch sử Viện Công nghệ thông tin (IoIT). Kết quả đánh giá hiệu quả của phương pháp đề xuất trên 11 mô hình embedding phổ biến cho thấy phương pháp đề xuất của chúng tôi cải thiện đáng kể khả năng truy xuất, với trung bình tăng 18,15% chỉ số MAP@K. Chatbot hỏi đáp về lịch sử IoIT, được xây dựng với các mô hình embedding đã fine-tune kết hợp với mô hình ngôn ngữ lớn tiếng Việt Vistral-7B, vượt trội hơn so với các chatbot sử dụng mô hình embedding của OpenAI và ChatGPT. Điều này chứng tỏ tiềm năng cao của công nghệ RAG Chatbot trong việc phát triển các ứng dụng truy xuất thông tin theo ngữ nghĩa trong các lĩnh vực chuyên ngành, đặc biệt là trong lĩnh vực khoa học quân sự.