Ứng dụng phương pháp học tăng cường đa tác nhân giải bài toán lựa chọn phương tiện hỏa lực trong hệ thống tự động hóa chỉ huy-điều khiển

  • Nguyễn Xuân Trường Viện Tích hợp hệ thống, Học viện Kỹ thuật Quân sự
  • Vũ Hỏa Tiễn Viện Tên lửa, Viện Khoa học và Công nghệ quân sự
  • Hoàng Văn Phúc Viện Tích hợp hệ thống, Học viện Kỹ thuật Quân sự
  • Nguyễn Quang Thi Viện Tích hợp hệ thống, Học viện Kỹ thuật Quân sự
  • Vũ Chí Thanh Viện Khí tài, Viện Khoa học và Công nghệ quân sự
Từ khóa: Học tăng cường; Tự động hóa chỉ huy; C4I; DWTA; DQL; OpenAI Gym

Tóm tắt

Bài báo trình bày phương pháp học tăng cường sâu đa tác nhân giải bài toán lựa chọn phương tiện hỏa lực (PTHL) động trong hệ thống TĐH CH-ĐK phòng không. Mô hình hoạt động của PTHL được xây dựng dựa trên dự đoán quỹ đạo tối ưu của các mô hình mục tiêu trên không đã được huấn luyện trước đó [1] và trạng thái các đối tượng trên mặt đất, cũng như phương án tối ưu phối hợp hoạt động của các PTHL trong hệ thống. Mô hình PTHL được xây dựng trên bộ thư viện OpenAI Gym sử dụng thuật toán học tăng cường sâu (DQL) để tối ưu hóa hàm giá trị Q. Sau khi được huấn luyện qua 200 nghìn vòng, mô hình PTHL đã có khả năng tự động phân tích, nhận thức tình huống, phối hợp các PTHL trong hệ thống, xây dựng phương án tương tác đối kháng động và chọn ra phương án tối ưu có tính tới các ràng buộc thực tế, để thu được giá trị cực tiểu của hàm tổn thất tổng thể cho toàn bộ quá trình chiến đấu. So với mô hình PTHL sử dụng thuật toán PPO được huấn luyện trong cùng một điều kiện môi trường, sau 1000 chu trình tác chiến tương tác với mô hình mục tiêu trên không, mô hình PTHL đề xuất đạt tỉ lệ chiến thắng 89,1% lớn hơn nhiều so với 77,2% của mô hình sử dụng thuật toán PPO.

điểm /   đánh giá
Phát hành ngày
2024-04-22
Chuyên mục
Kỹ thuật điều khiển & Điện tử