Dựng nước - Giữ nước
Tin tức: Chung tay-góp sức cho quansuvn.net ngày càng phát triển
 
*
Chào Khách. Bạn có thể đăng nhập hoặc đăng ký. 15 Tháng Mười Hai, 2019, 09:11:53 AM


Đăng nhập với Tên truy nhập, Mật khẩu và thời gian tự động thoát


Trang: 1 2 3 4 »   Xuống
  In  
Tác giả Chủ đề: Hướng dẫn số hóa sách  (Đọc 69679 lần)
0 Thành viên và 1 Khách đang xem chủ đề.
kien098
Thành viên
*
Bài viết: 207


« vào lúc: 15 Tháng Tám, 2007, 09:48:56 PM »

27/10/2007
Tôi làm gọn chủ đề này cho các bạn vào sau dễ tìm, dễ đọc hơn. 10con3


Hướng dẫn sử dụng VnDocR 4.0. Người viết : kien098

Các bạn có thể tải về ở đây

http://quansuvietnam.googlepages.com/home

Tải VN DocR 4.0 ở đây :

http://www.vndocr.com/home/Products.asp?ProductID=2

*

Vì Vn DocR 4.0 chỉ nhận dạng được 3 trang/1 lần. Các bạn có thể dùng các phần mềm sau để cắt nhỏ file ảnh  ra :

** Dùng phần mềm này để cắt ảnh ra làm đôi (1 file ảnh chứa 6 trang sách)
http://www.coolutils.com/Tiff-Paging

** Chỉnh sửa lại bản Word sau khi nhận dạng : sau khi nhận dạng, bản text chỉ xếp theo đúng trang sách (bản giấy) độ tầm 2/3 bản Word. Muốn chỉnh sửa cho hợp với bản Word, ta làm như sau :

Dùng Ctrl+H (Sử dụng Find and Replace trong word)
- Find what: gõ ^p
- Replace with:(bỏ trống), gõ dấu cách
Rồi chọn Replace all, ok là xong!

 
« Sửa lần cuối: 19 Tháng Bảy, 2014, 01:08:32 PM gửi bởi ptlinh » Logged
kien098
Thành viên
*
Bài viết: 207


« Trả lời #1 vào lúc: 16 Tháng Tám, 2007, 12:06:43 PM »



Mỗi lần tối đa 3 trang ảnh. Trang ảnh thì mình ăn gian ghép 3 trang của mình vào 1 thì mình được 9x3=18 trang sách 1 lần nhận dạng.
Vẫn dùng bản demo, nhưng engine ocr tốt hơn hẳn.Cùng file .trn khác hẳn luôn.
Nó cấm sao chép kể cả vào clipboard, nhưng gúc 1 phát ra mẹo ngay. Nó sang luôn Unicode đỡ phải mất công convert.
Nói chung là ổn, không vi phạm bản quyền!



Thường tớ hay dùng photoshop:
Cách làm: Ví dụ muốn nhét 4 ảnh vào 1: lấy kích thước ảnh đơn
Tăng canvas size lên 4 lần (mỗi cạnh x 2 lần)
Kéo các ảnh vào canvas đã tăng, xếp lại cho đúng thứ tự (dùng layer tool, chọn mũi tên move là di vô tư)
Vào layer flatten lại, rồi save ra dạng thích hợp (tớ thường dùng tif vì nó có nén, file đỡ to)

Lưu ý photoshop chỉ đọc trang 1 của multipages tiff, nên muốn đưa vào phải tách ra trước bằng các công cụ shareware đầy trên nét. Chỉ cần sợt "split multipages tiff file" là ra cả đống.

Mà đã bảo viết lúc đang tây tây, khó tính thế Smiley ghép 4 vào 1 thì được 2x4=8 trang 13x19 cho 1 ảnh vào OCR, 3 ảnh là được 24 trang Smiley
« Sửa lần cuối: 27 Tháng Mười, 2007, 12:04:33 PM gửi bởi 10con3 » Logged
lethanh
Thành viên
*
Bài viết: 6


« Trả lời #2 vào lúc: 16 Tháng Tám, 2007, 07:53:57 PM »

Việc chuyển từ bản in sang bản điện tử có thể có nhiều chiến sĩ chưa biết, nhất là những tân binh, nên tôi biên soạn bài viết này để các bạn tham khảo

Nguyên liệu cần có thể "số hóa" một bản in là

1. Máy scanner (các bạn có thể scan ở các dịch vụ Internet_giá tham khảo 500 đ /bản)
2. Phần mềm nhận dạng: hiện chỉ có VNdocr, theo tôi bạn nên dùng version 4.0, tôi đã thử 2.0, 3.0 và tôi quyết định chọn 4.0 vì có nhiều tính năng vượt trội. Hiện chỉ có bản Demo, bản full có giá khoảng 8 triệu. Bản Demo cho nhận dạng nhưng không cho copy.
Down tại: http://www.vndocr.com/home/Products.asp?ProductID=2
3. Phần mềm copy: để qua mặt VNdocr 4.0 ta cần có phần mềm copy, tôi đề nghị các bạn dùng Aqua Deskperience (Aqua) (bản Trial dùng thử 30 ngày) down tại : www.deskperience.com/aqua

Sau khi có đầy đủ vũ khí, bạn tiến hành các bước sau









Nhưng cách nhanh nhất vẫn là kéo thả. Aqua chỉ là một lựa chọn

Trên đây chỉ là những bước thực hiện cơ bản nhất. Mong các bạn trao đổi thêm nhiều kinh nghiệm nữa.

Logged
kien098
Thành viên
*
Bài viết: 207


« Trả lời #3 vào lúc: 28 Tháng Tám, 2007, 06:56:59 AM »

Giờ mới để ý là sếp có bài này. Hay thật, nhiều cái em chưa biết, rất hiệu quả.

Trong phần Dạy, những cái đại loại như _ấn, ứ, ừ, ngoa_ em cho vào option chữ Việt thường, như thế đã đúng và có hiệu quả không ạ.

Các từ kép không nhận dạng được như ấn chẳng hạn, phải để ý xem cũng ở chữ đó, OCR có tách vùng được 2 chữ rời (ví dụ cùng ở chữ ấn không nhận dạng được, nó có hỏi chữ an và bộ dấu, hay ấ và n không nhận dạng được hay không). Nếu có thì dạy nó sẽ tăng hiệu quả, nếu nó không tách được thì đừng dạy nó.
Chữ ngoa_ cũng thế.
Logged
vo quoc tuan
Thành viên
*
Bài viết: 121



« Trả lời #4 vào lúc: 29 Tháng Tám, 2007, 11:48:58 AM »

Có một số lỗi mà phần mềm OCR không thấy được đó là lỗi. Ví dụ chứ 12,7mm bị dịch thành 12,7mui một cách đại trà, lỗi này không hiện trong phần Học. Vậy ngoài phương án Replace trên Word, không rõ có phương án nào khác khắc phục ngay trên phần mềm OCR không ạ?
Logged

Ta đi theo ánh lửa từ trái tim mình ...
trasenvietnam
Thành viên
*
Bài viết: 136



« Trả lời #5 vào lúc: 21 Tháng Chín, 2007, 07:32:59 PM »

1. Sử dụng phần mềm AbbyyFineReader

- Bước 1: Sau khi khởi động chương trình, vào menu Tools -> Options -> Chọn thẻ Scan/Open và chọn như hình sau:



Sau đó chọn OK.


- Bước 2: Chọn Scan Image




- Bước 3: Sau khi chọn Scan Image sẽ xuất hiện cửa sổ sau




Chọn Custom Settings và Click vào Adjust the quality of the scanned picture




Chọn Resolution (DPI) là 400 rồi chọn OK

Sau đó chọn Scan để quét.


- Bước 4: Sau khi quét xong ta có kết quả ở hình dưới




- Bước 5: Chọn hết các file ảnh rồi chọn File -> Save Result -> Save Images sẽ xuất hiện cửa sổ sau. Chọn như hình vẽ rồi Save.




Sau đó ta sẽ xoá hết các file trong abby để thực hiện quét trang mới.


Có thể download phần mềm AbbyyFineReader tại đây.
« Sửa lần cuối: 06 Tháng Năm, 2010, 12:27:03 PM gửi bởi ptlinh » Logged
trasenvietnam
Thành viên
*
Bài viết: 136



« Trả lời #6 vào lúc: 21 Tháng Chín, 2007, 08:03:52 PM »

2. Sử dụng VnDOCR 2.0


- Bước 1: Sau khi cài đặt xong, vào Công cụ -> Tuỳ chọn và thực hiện như hình vẽ




- Bước 2: Mở file ảnh đã quét bằng phần mềm ABBYY và thực hiện nhận dạng.

Ấn vào tạo vùng mới



Chọn vùng cần nhận dạng




- Bước 3: Nhận dạng





Có thể download phần mềm VnDOCR 2.0 tại đây
« Sửa lần cuối: 06 Tháng Năm, 2010, 12:27:33 PM gửi bởi ptlinh » Logged
ptlinh
Admin Độc lập
*
Bài viết: 3999



WWW
« Trả lời #7 vào lúc: 22 Tháng Chín, 2007, 09:51:21 PM »

3. Đưa vào file word

Sau khi đã nhận dạng xong, chỉ việc copy các phần đã được nhận dạng vào word. Sau đó tuỳ vào phiên bản VnDOCR mà có thêm phần chuyển bảng mã hay không.

Nếu là VnDOCR 2.0 thì cần phải thêm một bước chuyển mã từ Vni sang Unicode. Việc chuyển mà từ Vni sang Unicode thực hiện rất dễ dàng với nhiều phần mềm khác nhau như: Unikey, VietUni, Vietkey Office...


Trong quá trình sửa lỗi chính tả, nếu bác nào muốn đưa hết các dòng lên đầy một dòng trong trang word thì có thể sử dụng chức năng Find and Replace trong word:
- Find: ^p
- Replace: dấu cách
Sau đó, chọn Replace all.
« Sửa lần cuối: 19 Tháng Sáu, 2008, 01:22:57 PM gửi bởi ptlinh » Logged

Hãy để những xui xẻo qua đi, biến mất khỏi chúng ta
Để săn đuổi những mục tiêu mà chính chúng ta đã chọn


ptlinh
Admin Độc lập
*
Bài viết: 3999



WWW
« Trả lời #8 vào lúc: 22 Tháng Chín, 2007, 09:56:39 PM »

Em bổ sung thêm 1 chút về ưu nhược điểm của VnDOCR 2.0 và 4.0

1. VnDOCR 2.0
- Ưu điểm: không hạn chế số trang ảnh tif
- Nhược điểm: chỉ chuyển được thành 2 bảng mã TCVN và Vni, không có bảng mã Unicode; nhận dạng không tốt bằng VnDOCR 4.0.

- Phải mất công dùng Unikey để chuyển mã từ VNi sang Unicode


2. VnDOCR 4.0
- Ưu điểm: chuyển được thành mã Unicode
- Nhược điểm: giới hạn số trang ảnh tif khi nhận dạng (chỉ nhận dạng tối đa 3 trang)

- 4.0 nhận file tiff bất kỳ và dung lượng phải từ 200PX trở lên
« Sửa lần cuối: 27 Tháng Mười, 2007, 12:11:11 PM gửi bởi 10con3 » Logged

Hãy để những xui xẻo qua đi, biến mất khỏi chúng ta
Để săn đuổi những mục tiêu mà chính chúng ta đã chọn


hl0919096823
Thành viên

Bài viết: 1


« Trả lời #9 vào lúc: 19 Tháng Năm, 2008, 06:05:48 PM »

theo tôi làm cách này nhanh hơn nhiều mà không cần dùng bất kì phần mền nào khác.
bạn chỉ mở word lên và quét phần bạn cần copy từ chương trình vndocr rồi đưa vào trang word đang mở là được
theo tôi bản demo còn khá nhiều lỗi. nếu tài liệu của bạn chỉ là text tiếng Việt thì dùng nó coi như tạm, còn nếu tài liệu có nhiều hình ảnh hay công thức thì thất bại hoàn toàn
Logged
Trang: 1 2 3 4 »   Lên
  In  
 
Chuyển tới:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines

Valid XHTML 1.0! Valid CSS! Dilber MC Theme by HarzeM