Truy vấn video đa thể thức sử dụng Dilated Pyramidal Residual Network

  • La Ngọc Thùy An
  • Nguyễn Phước Đạt
  • Phạm Minh Nhựt
  • Vũ Hải Quân
Từ khóa: Dilated Pyramidal Residual Network, truy vấn video đa thể thức, nhận dạng tiếng nói tiếng Việt, nhận dạng chữ in

Tóm tắt

Các dạng mạng neuron đa lớp đã gặt hái được nhiều kết quả đáng ghi nhận trong lĩnh vực phân lớp ảnh, đặc biệt là mạng PRN (Pyramidal Residual Network). Tuy nhiên, ở thời điểm viết báo cáo này, chưa có một công trình chính thức nào áp dụng mạng PRN cho tác vụ phân lớp tín hiệu chuỗi. Chúng tôi đề xuất phương pháp mở rộng kiến trúc PRN, chuyển biến thành một dạng mạng mới với tên gọi DPRN (Dilated Pyramidal Residual Network), đồng thời tiến hành lượng giá hiệu năng của nó trong lĩnh vực nhận dạng tiếng nói và nhận dạng chữ in. Đây là hai tiền tố cần thiết phục vụ cho một ứng dụng trong ngữ cảnh lớn hơn: truy vấn video đa thể thức. Thực nghiệm được tiến hành trên kho ngữ liệu thu thập từ chương trình thời sự của kênh VTV đài truyền hình Việt Nam. Kết quả cho thấy DPRN không chỉ áp dụng được cho tác vụ nhận dạng chuỗi tín hiệu theo thời gian, mà còn cho kết quả vượt trội hơn các giải pháp truyền thống.

điểm /   đánh giá
Phát hành ngày
2020-09-25
Chuyên mục
BÀI NGHIÊN CỨU