SO SÁNH CÁC GIẢI PHÁP OCR TRONG NHẬN DẠNG VĂN BẰNG TIẾNG VIỆT VÀ ĐỀ XUẤT ỨNG DỤNG THỰC TIỄN
Abstract
Công nghệ nhận dạng ký tự quang học (OCR) là một công cụ hiện đại để trích xuất văn bản từ hình ảnh, đem lại hiệu quả đáng kể trong việc tự động hóa nhận dạng văn bằng. Nghiên cứu này thử nghiệm bốn phương pháp OCR phổ biến và đưa ra các khuyến nghị triển khai thực tế, đó là DeepSeek, Meta AI’s LLaMA-3.2-11B-Vision-Instruct-Turbo, EasyOCR và API Gemini của Google, trong việc nhận dạng văn bản từ văn bằng tiếng Việt. Sau khi thực hiện xây dựng, cài đặt và triển khai các giải pháp tập trung vào ba tiêu chí: độ chính xác, tính ổn định và khả năng thực tiễn cho thấy DeepSeek không hỗ trợ ngôn ngữ tiếng Việt, EasyOCR yêu cầu xác định tọa độ thủ công, trong khi API Gemini và LLaMA đạt hiệu suất vượt trội với độ chính xác cao cho văn bằng, chứng chỉ có sử dụng chữ viết tay, trong đó LLaMA là nền tảng mã nguồn mở, không phụ thuộc nhà cung cấp. Nghiên cứu cho thấy triển khai OCR sử dụng LLaMA là giải pháp tối ưu nhất tính cả trên phương diện thời gian, công sức và nguồn lực tài chính.