Truy vấn video đa thể thức sử dụng Dilated Pyramidal Residual Network
Tóm tắt
Các dạng mạng neuron đa lớp đã gặt hái được nhiều kết quả đáng ghi nhận trong lĩnh vực phân lớp ảnh, đặc biệt là mạng PRN (Pyramidal Residual Network). Tuy nhiên, ở thời điểm viết báo cáo này, chưa có một công trình chính thức nào áp dụng mạng PRN cho tác vụ phân lớp tín hiệu chuỗi. Chúng tôi đề xuất phương pháp mở rộng kiến trúc PRN, chuyển biến thành một dạng mạng mới với tên gọi DPRN (Dilated Pyramidal Residual Network), đồng thời tiến hành lượng giá hiệu năng của nó trong lĩnh vực nhận dạng tiếng nói và nhận dạng chữ in. Đây là hai tiền tố cần thiết phục vụ cho một ứng dụng trong ngữ cảnh lớn hơn: truy vấn video đa thể thức. Thực nghiệm được tiến hành trên kho ngữ liệu thu thập từ chương trình thời sự của kênh VTV đài truyền hình Việt Nam. Kết quả cho thấy DPRN không chỉ áp dụng được cho tác vụ nhận dạng chuỗi tín hiệu theo thời gian, mà còn cho kết quả vượt trội hơn các giải pháp truyền thống.