Hôm qua có người nhờ myhanh chuyển những tập tin hình ảnh từ máy scan (jpg) thành những tập tin microsoft word. Nếu như đây là những văn bản Tiếng Anh thì rất dễ rùi nhưng lại là văn bản Tiếng Việt. Văn bản Tiếng Việt thì phải dùng VNDocr của Viện công nghệ thông tin rùi.
Tải VNDocr 4.0 phiên bản thử nghiệm [Đăng nhập để xem liên kết. ]
Phần mềm này chỉ nhận dạng được ảnh đen trắng thôi.
Vậy chúng ta cần phần mềm xử lý ảnh. Tốt nhấn cho ảnh .tif là IrfanView
. Irfanview là phần mềm miễn phí có thể tải về [Đăng nhập để xem liên kết. ].
Để chuyển hình màu thành đen trắng bằng Irfanview ta làm như sau: - Mở chương trình IrfanView 4.1, chọn File > Patch conversion/rename. Một hộp thoại xuất hiện. Trong phần Look in bạn chọn dường dẫn tới nơi bạn đã lưu file ảnh ở bước 2. Chọn tất cả hình cần rồi bấm Add. - Bấm chọn vào Use advanced options > Advanced > Change color depth > 2 color (black/white) (1BPP) > OK. - Chọn nơi lưu file trong mục Output directory for result files, chọn Patch để chương trình bắt đầu làm việc. Sau đó dùng VnDocr để nhận dạng các file hình TIF.
Tuy nhiên đây là bảng trial nên không cho phép chúng ta lưu lại. Bạn hãy mở tập tin MS Wordrồi drag & drop từng khối văn bản trong VnDocr sang tập tin MS Word.
__________________ Necessity is the mother of in(ter)vention.
Speak softly & carry a big stick. My Technical Blog