Dựng nước - Giữ nước
Tin tức: Chung tay-góp sức cho quansuvn.net ngày càng phát triển
 
*
Chào Khách. Bạn có thể đăng nhập hoặc đăng ký. 20 Tháng Mười, 2019, 01:10:10 AM


Đăng nhập với Tên truy nhập, Mật khẩu và thời gian tự động thoát


Trang: « 1 2 3 4 »   Xuống
  In  
Tác giả Chủ đề: Hướng dẫn số hóa sách  (Đọc 69118 lần)
0 Thành viên và 1 Khách đang xem chủ đề.
Cám_hn
Thành viên
*
Bài viết: 230


« Trả lời #10 vào lúc: 21 Tháng Năm, 2008, 08:23:24 PM »

Theo tôi vẫn đang và đã làm thì ta nên dùng phần mềm nhận dạng readiris asian khỏi phải vất vả mất công. Nhận dạng ngay trên máy scan ko cần phải lưu thành file ảnh. Cho ra bản word 97 đuôi rtf. Có thể nhận dạng cả file ảnh và file pdf luôn. Tốc độ nhanh và độ chính xác cao(95%). Chỉ ghét 1 điều là mỗi một đoạn văn nó lại ở trong 1 hộp text nên không trình bày định dạng cho cả văn bản được. Nếu mà muốn trình bày lại thì phải copy từng hộp text ra. Grin Grin Grin
Logged
tuaans
Cựu chiến binh
*
Bài viết: 3774


« Trả lời #11 vào lúc: 19 Tháng Chín, 2008, 01:40:21 PM »

Sau khi làm cuốn "Lịch sử lữ 101 ...", nhận dạng bằng VnDoc 4.0 Demo, tôi có 1 số mẹo nhỏ sau, đã được áp dụng có hiệu quả.

I - Với VnDOCR, xin đừng dạy dỗ gì hết, cứ để tự nhiên. Ai đã lỡ dạy rồi thì xóa tận gốc, vào thư mục đã cài mà xóa, rồi cài lại!

II - Sửa chính tả ngay trên VnDOCR là dễ nhất!
 
III - Sau khi có bản word thô, dùng Find and Replace để tìm và thay thế toàn bộ những kí hiệu sau:
    1. thay "  " (2 khoảng trắng) = " " (1 khoảng trắng)
    2. thay " ." (1 trắng và dấu chấm) = "." (1 dấu chấm)
    3. thay " ," (1 trắng và dấu phẩy) = "," (1 dấu phẩy)
    ----------------------------------------------------
    4. thay ".^p" (1 chấm và ^p) = "xxx" (đề nghị thế  Grin)
    5. thay "^p" (không có chấm) = " " (1 khoảng trắng)
    6. thay "xxx" = ".^p^p" (1 chấm và 2 lần ^p)
        đúng ra chỉ 1 lần ^p thôi, nhưng do yêu cầu dễ đọc khi post bài nên thêm 1 lần ^p nữa!

* Hãy xem kết quả đạt được!  Grin
* Xin nhắc lại là tôi làm với  VnDOCR 4.0 Demo. Các bản 2.0, 3.0 chưa làm nên không biết kết quả như thế nào!
* Cuối cùng, thực hiện đúng tuần tự các bước trên để tránh có kết quả không như mong đợi.  Grin
« Sửa lần cuối: 19 Tháng Chín, 2008, 04:57:48 PM gửi bởi tuaans » Logged
tuaans
Cựu chiến binh
*
Bài viết: 3774


« Trả lời #12 vào lúc: 19 Tháng Chín, 2008, 04:59:01 PM »

Bác nào muốn thử bước 1 đến 6, xin tải file thu.gif về (mở file bằng word nhé!)
Logged
tuaans
Cựu chiến binh
*
Bài viết: 3774


« Trả lời #13 vào lúc: 17 Tháng Mười, 2008, 10:44:38 AM »

"Dạy" cho VnDOCR 4.0 demo trong việc nhận dạng những từ hay sai.

Việc dạy này chỉ thích hợp cho nhận dạng những tài liệu dài. Nếu vài trang thì sửa bằng tay là nhanh nhất!  Grin

Bắt đầu nhé!

1 - Hãy vào thư mục cài đặt VnDOCR 4.0, tìm file train.trn - đây là file lưu trữ các thông tin về việc "dạy" nó. Bạn hiểu rằng khi bạn "dạy" thì sẽ được ghi vào đây. Thế cho nên mỗi khi bạn nhận dạng 1 cuốn sách bạn nên có 1 file train.trn khác nhau. Dùng chung lẫn nhau, thí dụ là bạn nhận dạng 1 cuốn sách cũ nát, chữ nhòe, bạn huấn luyện cho nó rồi đem nhận dạng cuốn khác thì kết quả đôi khi còn tệ hơn !  Grin
Vậy đề nghị bạn cất cái file train.trn đó đi, khi cần thì lôi ra dùng lại.

2 - Bạn xóa cái file train.trn đó để bắt đầu huấn luyện nó cho 1 cuốn sách mà bạn muốn nhận dạng.

3 - Việc huấn luyện thì cứ vào trong chương trình mà làm, tôi nghĩ mọi người đều rõ.

Tuy nhiên có 1 số "kỹ thuật" nhỏ sau mà theo tôi là đáng để ý:
- khi dạy, bạn dùng font ABC để gõ - với chữ Việt có dấu thì bạn để nó là tiếng Anh chứ không để chữ việt thường hay hoa!
- Khi save lại thì nó hỏi save ở đâu và có hai hàng lựa chọn - bạn hãy chọn hàng địa chỉ ghi đơn giản là "train.trn" thì các thông tin được dạy dỗ mới lưu lại.
- Bạn dạy nó trùng nhiều quá hay lỡ tay dạy sai thì sao thì sao? Xóa nó đi! OK, ở đây có 1 mánh nhỏ để xóa! Đầu tiên muốn xóa thì mở mục "Xử lý/Soạn thảo tệp học". Chọn chữ cần xóa rồi bấm xóa! Đơn giản quá phải không? Bạn save nó lại giống như trên! Bạn làm vài lần và xem lại thấy hình như mỗi lần save thì số lượng chữ được dạy tăng lên gấp đôi?  Grin
Mánh đơn giản là trước khi save lại bạn hãy mở thư mục chứa file train.trn và xóa nó đi!  Grin

* Lưu ý là 1 số lỗi không thể sửa được, và bạn đừng mất công dạy làm gì, dạy xong nó vẫn sai như thường! Bản demo mà!  Grin
« Sửa lần cuối: 17 Tháng Mười, 2008, 11:07:45 AM gửi bởi tuaans » Logged
OldBuff
Moderator
*
Bài viết: 3053


Vì nhân dân quên mình


« Trả lời #14 vào lúc: 10 Tháng Mười Một, 2008, 10:25:57 AM »

Bác Tuaans cho Buff hỏi chút về VndocR: Hôm trước tải về cài thử để chuyển tệp Tif (trước đó là tệp quét đuôi Jpeg) nó toàn báo lỗi. VNDocR có chuyển được ký tự từ các bảng ko bác?
Logged

Thượng tôn công lý - Chế áp cường quyền
tuaans
Cựu chiến binh
*
Bài viết: 3774


« Trả lời #15 vào lúc: 10 Tháng Mười Một, 2008, 10:37:49 AM »

1 - Bác dùng Paint save cái JPG ấy thành B-W (hình - 1)

2- Nếu cái JPG mất tiêu rồi chỉ còn TIFF thì dùng chương trình của bộ office - mở file TIFF lên rồi nhận dạng nó (= tiếng A,F...) rồi save lại, đem qua VnDOCR có thể hết lỗi! (hình - 2)
Logged
chiangshan
Thành viên
*
Bài viết: 3406


No sacrifice, no victory


WWW
« Trả lời #16 vào lúc: 10 Tháng Mười Một, 2008, 10:52:42 AM »

Hình như VnDOCR 2 chỉ nhận dạng được file scan bằng AbbyyFineReader chứ không nhận file .tif bất kì thì phải Huh VnDOCR 4 thì em chưa thử nên không rõ lắm.
Logged

Dân ta phải biết sử ta
Cái gì không biết cần tra Gúc gồ
tuaans
Cựu chiến binh
*
Bài viết: 3774


« Trả lời #17 vào lúc: 10 Tháng Mười Một, 2008, 11:02:55 AM »

CS cứ bật thuộc tính file tiff lên, cứ như thế này là được! (độ phân giải 200 - 400)
Logged
OldBuff
Moderator
*
Bài viết: 3053


Vì nhân dân quên mình


« Trả lời #18 vào lúc: 10 Tháng Mười Một, 2008, 02:11:18 PM »

He he! Cảm ơn bác tuaans và cô thời tiết giúp Buff mó tài liệu Grin
Logged

Thượng tôn công lý - Chế áp cường quyền
OldBuff
Moderator
*
Bài viết: 3053


Vì nhân dân quên mình


« Trả lời #19 vào lúc: 10 Tháng Mười Một, 2008, 08:46:34 PM »

Bác tuaans ui tui về làm thử thấy nó cấm tiệt sao chép kết quả do đấy là bản demo. Bác có bản nào chính thức ko vậy?
Logged

Thượng tôn công lý - Chế áp cường quyền
Trang: « 1 2 3 4 »   Lên
  In  
 
Chuyển tới:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines

Valid XHTML 1.0! Valid CSS! Dilber MC Theme by HarzeM