PHÁT HIỆN URL PHISHING DỰA TRÊN MÔ HÌNH BERT

Vũ Xuân Hạnh; Đỗ Duy Trinh; Ngọ Văn Sơn; Nguyễn Anh Tuấn

Vũ Xuân Hạnh
Đỗ Duy Trinh
Ngọ Văn Sơn
Nguyễn Anh Tuấn

Từ khóa: URL Phishing, phát hiện URL Phishing, kiến trúc transformer, BERT, XGBoost, Machine Learning, Random Forest

Tóm tắt

Trong bối cảnh các cuộc tấn công mạng ngày càng gia tăng và phức tạp, đặc biệt là các hình thức lừa đảo qua không gian mạng, việc phát triển các mô hình phát hiện tấn công là một nhu cầu cấp thiết. Bài báo này đề xuất phương pháp phát hiện URL Phishing dựa trên kiến trúc transformer, so sánh với phương pháp phát hiện dựa trên học máy có giám sát sử dụng đặc trưng. Nhóm tác giả đã trích xuất 36 đặc trưng chia thành hai nhóm chính: đặc trưng URL và đặc trưng Domain. Các thuật toán Random Forest, XGBoost, và mô hình BERT được huấn luyện, kiểm thử và đánh giá trên bộ dữ liệu đa dạng, bao gồm cả URL Phishing, URL Malware và Defacement. Kết quả cho thấy mô hình BERT đạt độ chính xác 99,05%, cùng tỷ lệ phát hiện cao 99,45% với độ ổn định, chứng minh tính hiệu quả của phương pháp dựa trên kiến trúc transformer

PHÁT HIỆN URL PHISHING DỰA TRÊN MÔ HÌNH BERT

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS