ĐIỀU KHIỂN TỐI ƯU THÍCH NGHI TRÊN CƠ SỞ HỌC TĂNG CƯỜNG TÍCH PHÂN TRỰC TUYẾN

  • Nguyễn Thị Thắm
  • Vũ Văn Tú
Từ khóa: Điều khiển tối ưu thích nghi trực tiếp, Thuật toán lặp, Mạng nơ-ron, Điều khiển trực tuyến.

Tóm tắt

Bài báo này đề xuất một cách tiếp cận trực tuyến để điều khiển tối ưu thích nghi trực
tiếp với chi phí vô hạn cho các hệ thống phi tuyến trong một khung thời gian liên tục. Sự hội tụ của
thuật toán trực tuyến với các giải pháp điều khiển tối ưu mà không yêu cầu động học nội của hệ thống.
Tính ổn định động vòng kín được đảm bảo. Thuật toán được xây dựng trên chương trình học tăng
cường (RL), cụ thể là thuật toán lặp PI (Policy Iteration) và sử dụng mạng nơ-ron trong cấu trúc
Actor/Critic để biểu diễn thông số của luật điều khiển và hiệu suất của hệ thống điều khiển. Hai mạng
nơ-ron được huấn luyện để thể hiện bộ điều khiển tối ưu và hàm chi phí tối ưu mô tả hiệu suất của bộ
điều khiển vô hạn. Kết quả là một cấu trúc điều khiển lai trong đó gồm một bộ điều khiển liên tục
theo thời gian và một cấu trúc điều khiển thích nghi giám sát hoạt động dựa trên dữ liệu được lấy mẫu
từ đối tượng và hiệu suất động học thời gian liên tục. Các phân tích lý thuyết và kết quả mô phỏng
chứng minh sự hiệu quả của thuật toán đề xuất.

điểm /   đánh giá
Phát hành ngày
2021-02-03