Dựng nước - Giữ nước

Thông tin chung => Chung sức xây dựng website => Tác giả chủ đề:: kien098 trong 15 Tháng Tám, 2007, 09:48:56 PM



Tiêu đề: Hướng dẫn số hóa sách
Gửi bởi: kien098 trong 15 Tháng Tám, 2007, 09:48:56 PM
27/10/2007
Tôi làm gọn chủ đề này cho các bạn vào sau dễ tìm, dễ đọc hơn. 10con3


Hướng dẫn sử dụng VnDocR 4.0. Người viết : kien098

Các bạn có thể tải về ở đây

http://quansuvietnam.googlepages.com/home

Tải VN DocR 4.0 ở đây :

http://www.vndocr.com/home/Products.asp?ProductID=2

*

Vì Vn DocR 4.0 chỉ nhận dạng được 3 trang/1 lần. Các bạn có thể dùng các phần mềm sau để cắt nhỏ file ảnh  ra :

** Dùng phần mềm này để cắt ảnh ra làm đôi (1 file ảnh chứa 6 trang sách)
http://www.coolutils.com/Tiff-Paging

** Chỉnh sửa lại bản Word sau khi nhận dạng : sau khi nhận dạng, bản text chỉ xếp theo đúng trang sách (bản giấy) độ tầm 2/3 bản Word. Muốn chỉnh sửa cho hợp với bản Word, ta làm như sau :

Dùng Ctrl+H (Sử dụng Find and Replace trong word)
- Find what: gõ ^p
- Replace with:(bỏ trống), gõ dấu cách
Rồi chọn Replace all, ok là xong!

 


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: kien098 trong 16 Tháng Tám, 2007, 12:06:43 PM


Mỗi lần tối đa 3 trang ảnh. Trang ảnh thì mình ăn gian ghép 3 trang của mình vào 1 thì mình được 9x3=18 trang sách 1 lần nhận dạng.
Vẫn dùng bản demo, nhưng engine ocr tốt hơn hẳn.Cùng file .trn khác hẳn luôn.
Nó cấm sao chép kể cả vào clipboard, nhưng gúc 1 phát ra mẹo ngay. Nó sang luôn Unicode đỡ phải mất công convert.
Nói chung là ổn, không vi phạm bản quyền!



Thường tớ hay dùng photoshop:
Cách làm: Ví dụ muốn nhét 4 ảnh vào 1: lấy kích thước ảnh đơn
Tăng canvas size lên 4 lần (mỗi cạnh x 2 lần)
Kéo các ảnh vào canvas đã tăng, xếp lại cho đúng thứ tự (dùng layer tool, chọn mũi tên move là di vô tư)
Vào layer flatten lại, rồi save ra dạng thích hợp (tớ thường dùng tif vì nó có nén, file đỡ to)

Lưu ý photoshop chỉ đọc trang 1 của multipages tiff, nên muốn đưa vào phải tách ra trước bằng các công cụ shareware đầy trên nét. Chỉ cần sợt "split multipages tiff file" là ra cả đống.

Mà đã bảo viết lúc đang tây tây, khó tính thế :) ghép 4 vào 1 thì được 2x4=8 trang 13x19 cho 1 ảnh vào OCR, 3 ảnh là được 24 trang :)


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: lethanh trong 16 Tháng Tám, 2007, 07:53:57 PM
Việc chuyển từ bản in sang bản điện tử có thể có nhiều chiến sĩ chưa biết, nhất là những tân binh, nên tôi biên soạn bài viết này để các bạn tham khảo

Nguyên liệu cần có thể "số hóa" một bản in là

1. Máy scanner (các bạn có thể scan ở các dịch vụ Internet_giá tham khảo 500 đ /bản)
2. Phần mềm nhận dạng: hiện chỉ có VNdocr, theo tôi bạn nên dùng version 4.0, tôi đã thử 2.0, 3.0 và tôi quyết định chọn 4.0 vì có nhiều tính năng vượt trội. Hiện chỉ có bản Demo, bản full có giá khoảng 8 triệu. Bản Demo cho nhận dạng nhưng không cho copy.
Down tại: http://www.vndocr.com/home/Products.asp?ProductID=2
3. Phần mềm copy: để qua mặt VNdocr 4.0 ta cần có phần mềm copy, tôi đề nghị các bạn dùng Aqua Deskperience (Aqua) (bản Trial dùng thử 30 ngày) down tại : www.deskperience.com/aqua

Sau khi có đầy đủ vũ khí, bạn tiến hành các bước sau
(http://i160.photobucket.com/albums/t165/leekimbh/vn1.jpg)

(http://i160.photobucket.com/albums/t165/leekimbh/vn2.jpg)
(http://i160.photobucket.com/albums/t165/leekimbh/vn3.jpg)

(http://i160.photobucket.com/albums/t165/leekimbh/vn4.jpg)

(http://i160.photobucket.com/albums/t165/leekimbh/vn5.jpg)

Nhưng cách nhanh nhất vẫn là kéo thả. Aqua chỉ là một lựa chọn

Trên đây chỉ là những bước thực hiện cơ bản nhất. Mong các bạn trao đổi thêm nhiều kinh nghiệm nữa.



Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: kien098 trong 28 Tháng Tám, 2007, 06:56:59 AM
Giờ mới để ý là sếp có bài này. Hay thật, nhiều cái em chưa biết, rất hiệu quả.

Trong phần Dạy, những cái đại loại như _ấn, ứ, ừ, ngoa_ em cho vào option chữ Việt thường, như thế đã đúng và có hiệu quả không ạ.

Các từ kép không nhận dạng được như ấn chẳng hạn, phải để ý xem cũng ở chữ đó, OCR có tách vùng được 2 chữ rời (ví dụ cùng ở chữ ấn không nhận dạng được, nó có hỏi chữ an và bộ dấu, hay ấ và n không nhận dạng được hay không). Nếu có thì dạy nó sẽ tăng hiệu quả, nếu nó không tách được thì đừng dạy nó.
Chữ ngoa_ cũng thế.


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: vo quoc tuan trong 29 Tháng Tám, 2007, 11:48:58 AM
Có một số lỗi mà phần mềm OCR không thấy được đó là lỗi. Ví dụ chứ 12,7mm bị dịch thành 12,7mui một cách đại trà, lỗi này không hiện trong phần Học. Vậy ngoài phương án Replace trên Word, không rõ có phương án nào khác khắc phục ngay trên phần mềm OCR không ạ?


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: trasenvietnam trong 21 Tháng Chín, 2007, 07:32:59 PM
1. Sử dụng phần mềm AbbyyFineReader

- Bước 1: Sau khi khởi động chương trình, vào menu Tools -> Options -> Chọn thẻ Scan/Open và chọn như hình sau:

(http://i153.photobucket.com/albums/s206/trasenvietnam/Dungabby/image001.jpg)

Sau đó chọn OK.


- Bước 2: Chọn Scan Image

(http://i153.photobucket.com/albums/s206/trasenvietnam/Dungabby/image002.jpg)


- Bước 3: Sau khi chọn Scan Image sẽ xuất hiện cửa sổ sau

(http://i153.photobucket.com/albums/s206/trasenvietnam/Dungabby/image003.jpg)


Chọn Custom Settings và Click vào Adjust the quality of the scanned picture

(http://i153.photobucket.com/albums/s206/trasenvietnam/Dungabby/image004.jpg)


Chọn Resolution (DPI) là 400 rồi chọn OK

Sau đó chọn Scan để quét.


- Bước 4: Sau khi quét xong ta có kết quả ở hình dưới

(http://i153.photobucket.com/albums/s206/trasenvietnam/Dungabby/image007.jpg)


- Bước 5: Chọn hết các file ảnh rồi chọn File -> Save Result -> Save Images sẽ xuất hiện cửa sổ sau. Chọn như hình vẽ rồi Save.

(http://i153.photobucket.com/albums/s206/trasenvietnam/Dungabby/image010.jpg)


Sau đó ta sẽ xoá hết các file trong abby để thực hiện quét trang mới.


Có thể download phần mềm AbbyyFineReader tại đây (http://www.mediafire.com/?iuzuytxknfw).


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: trasenvietnam trong 21 Tháng Chín, 2007, 08:03:52 PM
2. Sử dụng VnDOCR 2.0


- Bước 1: Sau khi cài đặt xong, vào Công cụ -> Tuỳ chọn và thực hiện như hình vẽ

(http://i153.photobucket.com/albums/s206/trasenvietnam/DungVnDOCR/image001.jpg)


- Bước 2: Mở file ảnh đã quét bằng phần mềm ABBYY và thực hiện nhận dạng.

Ấn vào tạo vùng mới

(http://i153.photobucket.com/albums/s206/trasenvietnam/DungVnDOCR/image002.jpg)

Chọn vùng cần nhận dạng

(http://i153.photobucket.com/albums/s206/trasenvietnam/DungVnDOCR/image003.jpg)


- Bước 3: Nhận dạng

(http://i153.photobucket.com/albums/s206/trasenvietnam/DungVnDOCR/image004.jpg)



Có thể download phần mềm VnDOCR 2.0 tại đây (http://www.mediafire.com/?zt3qyzyjare)


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: ptlinh trong 22 Tháng Chín, 2007, 09:51:21 PM
3. Đưa vào file word

Sau khi đã nhận dạng xong, chỉ việc copy các phần đã được nhận dạng vào word. Sau đó tuỳ vào phiên bản VnDOCR mà có thêm phần chuyển bảng mã hay không.

Nếu là VnDOCR 2.0 thì cần phải thêm một bước chuyển mã từ Vni sang Unicode. Việc chuyển mà từ Vni sang Unicode thực hiện rất dễ dàng với nhiều phần mềm khác nhau như: Unikey, VietUni, Vietkey Office...


Trong quá trình sửa lỗi chính tả, nếu bác nào muốn đưa hết các dòng lên đầy một dòng trong trang word thì có thể sử dụng chức năng Find and Replace trong word:
- Find: ^p
- Replace: dấu cách
Sau đó, chọn Replace all.


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: ptlinh trong 22 Tháng Chín, 2007, 09:56:39 PM
Em bổ sung thêm 1 chút về ưu nhược điểm của VnDOCR 2.0 và 4.0

1. VnDOCR 2.0
- Ưu điểm: không hạn chế số trang ảnh tif
- Nhược điểm: chỉ chuyển được thành 2 bảng mã TCVN và Vni, không có bảng mã Unicode; nhận dạng không tốt bằng VnDOCR 4.0.

- Phải mất công dùng Unikey để chuyển mã từ VNi sang Unicode


2. VnDOCR 4.0
- Ưu điểm: chuyển được thành mã Unicode
- Nhược điểm: giới hạn số trang ảnh tif khi nhận dạng (chỉ nhận dạng tối đa 3 trang)

- 4.0 nhận file tiff bất kỳ và dung lượng phải từ 200PX trở lên


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: hl0919096823 trong 19 Tháng Năm, 2008, 06:05:48 PM
theo tôi làm cách này nhanh hơn nhiều mà không cần dùng bất kì phần mền nào khác.
bạn chỉ mở word lên và quét phần bạn cần copy từ chương trình vndocr rồi đưa vào trang word đang mở là được
theo tôi bản demo còn khá nhiều lỗi. nếu tài liệu của bạn chỉ là text tiếng Việt thì dùng nó coi như tạm, còn nếu tài liệu có nhiều hình ảnh hay công thức thì thất bại hoàn toàn


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: Cám_hn trong 21 Tháng Năm, 2008, 08:23:24 PM
Theo tôi vẫn đang và đã làm thì ta nên dùng phần mềm nhận dạng readiris asian khỏi phải vất vả mất công. Nhận dạng ngay trên máy scan ko cần phải lưu thành file ảnh. Cho ra bản word 97 đuôi rtf. Có thể nhận dạng cả file ảnh và file pdf luôn. Tốc độ nhanh và độ chính xác cao(95%). Chỉ ghét 1 điều là mỗi một đoạn văn nó lại ở trong 1 hộp text nên không trình bày định dạng cho cả văn bản được. Nếu mà muốn trình bày lại thì phải copy từng hộp text ra. ;D ;D ;D


Tiêu đề: 1 số thủ thuật chỉnh sửa văn bản word sau nhận dạng
Gửi bởi: tuaans trong 19 Tháng Chín, 2008, 01:40:21 PM
Sau khi làm cuốn "Lịch sử lữ 101 ...", nhận dạng bằng VnDoc 4.0 Demo, tôi có 1 số mẹo nhỏ sau, đã được áp dụng có hiệu quả.

I - Với VnDOCR, xin đừng dạy dỗ gì hết, cứ để tự nhiên. Ai đã lỡ dạy rồi thì xóa tận gốc, vào thư mục đã cài mà xóa, rồi cài lại!

II - Sửa chính tả ngay trên VnDOCR là dễ nhất!
 
III - Sau khi có bản word thô, dùng Find and Replace để tìm và thay thế toàn bộ những kí hiệu sau:
    1. thay "  " (2 khoảng trắng) = " " (1 khoảng trắng)
    2. thay " ." (1 trắng và dấu chấm) = "." (1 dấu chấm)
    3. thay " ," (1 trắng và dấu phẩy) = "," (1 dấu phẩy)
    ----------------------------------------------------
    4. thay ".^p" (1 chấm và ^p) = "xxx" (đề nghị thế  ;D)
    5. thay "^p" (không có chấm) = " " (1 khoảng trắng)
    6. thay "xxx" = ".^p^p" (1 chấm và 2 lần ^p)
        đúng ra chỉ 1 lần ^p thôi, nhưng do yêu cầu dễ đọc khi post bài nên thêm 1 lần ^p nữa!

* Hãy xem kết quả đạt được!  ;D
* Xin nhắc lại là tôi làm với  VnDOCR 4.0 Demo. Các bản 2.0, 3.0 chưa làm nên không biết kết quả như thế nào!
* Cuối cùng, thực hiện đúng tuần tự các bước trên để tránh có kết quả không như mong đợi.  ;D


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 19 Tháng Chín, 2008, 04:59:01 PM
Bác nào muốn thử bước 1 đến 6, xin tải file thu.gif về (mở file bằng word nhé!)


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 17 Tháng Mười, 2008, 10:44:38 AM
"Dạy" cho VnDOCR 4.0 demo trong việc nhận dạng những từ hay sai.

Việc dạy này chỉ thích hợp cho nhận dạng những tài liệu dài. Nếu vài trang thì sửa bằng tay là nhanh nhất!  ;D

Bắt đầu nhé!

1 - Hãy vào thư mục cài đặt VnDOCR 4.0, tìm file train.trn - đây là file lưu trữ các thông tin về việc "dạy" nó. Bạn hiểu rằng khi bạn "dạy" thì sẽ được ghi vào đây. Thế cho nên mỗi khi bạn nhận dạng 1 cuốn sách bạn nên có 1 file train.trn khác nhau. Dùng chung lẫn nhau, thí dụ là bạn nhận dạng 1 cuốn sách cũ nát, chữ nhòe, bạn huấn luyện cho nó rồi đem nhận dạng cuốn khác thì kết quả đôi khi còn tệ hơn !  ;D
Vậy đề nghị bạn cất cái file train.trn đó đi, khi cần thì lôi ra dùng lại.

2 - Bạn xóa cái file train.trn đó để bắt đầu huấn luyện nó cho 1 cuốn sách mà bạn muốn nhận dạng.

3 - Việc huấn luyện thì cứ vào trong chương trình mà làm, tôi nghĩ mọi người đều rõ.

Tuy nhiên có 1 số "kỹ thuật" nhỏ sau mà theo tôi là đáng để ý:
- khi dạy, bạn dùng font ABC để gõ - với chữ Việt có dấu thì bạn để nó là tiếng Anh  chứ không để chữ việt thường hay hoa!
- Khi save lại thì nó hỏi save ở đâu và có hai hàng lựa chọn - bạn hãy chọn hàng địa chỉ ghi đơn giản là "train.trn" thì các thông tin được dạy dỗ mới lưu lại.
- Bạn dạy nó trùng nhiều quá hay lỡ tay dạy sai thì sao thì sao? Xóa nó đi! OK, ở đây có 1 mánh nhỏ để xóa! Đầu tiên muốn xóa thì mở mục "Xử lý/Soạn thảo tệp học". Chọn chữ cần xóa rồi bấm xóa! Đơn giản quá phải không? Bạn save nó lại giống như trên! Bạn làm vài lần và xem lại thấy hình như mỗi lần save thì số lượng chữ được dạy tăng lên gấp đôi?  ;D
Mánh đơn giản là trước khi save  lại bạn hãy mở thư mục chứa file train.trn và xóa nó đi!  ;D

* Lưu ý là 1 số lỗi không thể sửa được, và bạn đừng mất công dạy làm gì, dạy xong nó vẫn sai như thường! Bản demo mà!  ;D


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: OldBuff trong 10 Tháng Mười Một, 2008, 10:25:57 AM
Bác Tuaans cho Buff hỏi chút về VndocR: Hôm trước tải về cài thử để chuyển tệp Tif (trước đó là tệp quét đuôi Jpeg) nó toàn báo lỗi. VNDocR có chuyển được ký tự từ các bảng ko bác?


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 10 Tháng Mười Một, 2008, 10:37:49 AM
1 - Bác dùng Paint save cái JPG ấy thành B-W (hình - 1)

2- Nếu cái JPG mất tiêu rồi chỉ còn TIFF thì dùng chương trình của bộ office - mở file TIFF lên rồi nhận dạng nó (= tiếng A,F...) rồi save lại, đem qua VnDOCR có thể hết lỗi! (hình - 2)


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: chiangshan trong 10 Tháng Mười Một, 2008, 10:52:42 AM
Hình như VnDOCR 2 chỉ nhận dạng được file scan bằng AbbyyFineReader chứ không nhận file .tif bất kì thì phải ??? VnDOCR 4 thì em chưa thử nên không rõ lắm.


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 10 Tháng Mười Một, 2008, 11:02:55 AM
CS cứ bật thuộc tính file tiff lên, cứ như thế này là được! (độ phân giải 200 - 400)


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: OldBuff trong 10 Tháng Mười Một, 2008, 02:11:18 PM
He he! Cảm ơn bác tuaans và cô thời tiết giúp Buff mó tài liệu ;D


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: OldBuff trong 10 Tháng Mười Một, 2008, 08:46:34 PM
Bác tuaans ui tui về làm thử thấy nó cấm tiệt sao chép kết quả do đấy là bản demo. Bác có bản nào chính thức ko vậy?


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 10 Tháng Mười Một, 2008, 08:49:43 PM
Hơ, cái này nói lúc đầu rồi thì phải!  ;D

Bác chỉ việc chọn rồi kéo nó thả qua word là được, đơn giản thế đấy!  ;D


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: vimascom trong 04 Tháng Sáu, 2009, 08:41:54 AM
Để chất lượng nhận dạng cao nhất, không nên thực hiện trên các sản phẩm scan thông thường. Các bạn có thể tham khảo sản phẩm số hóa của ATIZ tại địa chỉ:
http://www.vimas.com.vn/index.php?ID_LEVEL1=146&ID_LEVEL3=191


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 04 Tháng Sáu, 2009, 09:53:58 AM
Bác tặng 1 cái cho anh em quân sử dùng thử đi ạh!  ;D

Đây toàn CCB trên răng dưới dép, súng đạn đã bị tịch thu, với lại toàn SV mới ra trường đang thất nghiệp thôi ạ!


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: phonglan trong 08 Tháng Bảy, 2009, 08:25:03 PM
3. Đưa vào file word

Nếu là VnDOCR 2.0 thì cần phải thêm một bước chuyển mã từ Vni sang Unicode. Việc chuyển mà từ Vni sang Unicode thực hiện rất dễ dàng với nhiều phần mềm khác nhau như: Unikey, VietUni, Vietkey Office...


Không biết đã có ai chuyển mã từ Vni sang Unicode bằng UOffice chưa? Gần đây mình dùng UOffice 1.3 để chuyển mã văn bản đã được nhận dạng từ Vni sang Unicode thấy tiện lợi và nhanh hơn rất nhiều vì bớt được bước chọn file nguồn -> file đích...


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 08 Tháng Bảy, 2009, 08:29:06 PM
Dùng unikey đê, vừa gõ tiếng Việt vừa chuyển đổi các loại font chữ lại vừa miễn phí!  ;D


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: phonglan trong 09 Tháng Bảy, 2009, 02:57:40 PM

UOffice cũng có bản dùng miễn phí ;D


Tiêu đề: Re: Hướng dẫn số hóa sách (dùng Vn DocR nhận dạng sách)
Gửi bởi: tuaans trong 13 Tháng Bảy, 2009, 12:05:30 PM
Bác nào có máy mạnh, RAM nhiều chơi cái này đi ạ: Advanced tif editor 3.0.  Dùng cái này ghép các trang tif lại thành 1 rồi đem nhận dạng, khỏe re!  ;D

(soft này ở hàng đĩa chưa có, dùng đỡ bản đề - mô cũng ổn)


Tiêu đề: Hướng dẫn số hóa sách - Giới thiệu phần mềm Abby FineReader 11
Gửi bởi: ptlinh trong 19 Tháng Bảy, 2014, 01:25:52 PM
Lâu lắm rồi em cũng không để ý đến các phần mềm OCR. Hôm nay dùng lại cái VnDocr 2.0 nhưng không dùng được. Đành lọ mọ lên nhờ cụ gúc. Kết quả là ra được cái Abby bản 11. Chạy phát ra luôn file doc với nội dung Unicode luôn.

(http://i36.photobucket.com/albums/e48/thongdiepthoigian/AbbyFineReader11_zps0843270e.jpg)

Bác nào có nhu cầu thì lên gúc tìm, dùng hay phết  ;D


Tiêu đề: Re: Hướng dẫn số hóa sách
Gửi bởi: Giangtvx trong 19 Tháng Tám, 2014, 08:49:18 PM
ABBYY FineReader, phần mềm chuyển pdf sang word, chuyển hình ảnh sang word, image to word, scan to word, Chuyển file scan, ảnh, PDF, JPG, PNG, TIFF... sang Word
   
ABBYY FineReader là phần mềm OCR thông minh có thể chuyển đổi tài liệu giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soản thảo và tìm kiếm được. ABBYY FineReader thế hệ mới nhất (phiên bản 11) là thế hệ đầu tiên hỗ trợ nhận dạng tiếng Việt. Không chỉ nhận dạng tiếng Việt với độ chính xác lên tới 99%, ABBYY FineReader 11 còn có khả năng giữ nguyên định dạng và dàn trang của tài liệu gốc tốt hơn bao giờ hết. Bạn chỉ cần quét hoặc chụp hình văn bản rồi để ABBYY FineReader làm nốt phần còn lại. Chỉ trong chốc lát là bạn sẽ có trong tay văn bản số ở định dạng có thể soạn thảo được ! Trực quan, nhanh chóng và mạnh mẽ, ABBYY FineReader 11 giúp các cá nhân và doanh nghiệp tiết kiệm thời gian và đạt hiệu quả công việc cao hơn.

(http://i479.photobucket.com/albums/rr153/Giangtvx/moi/a_zps762cf359.jpg)

Các tính năng:
* Nhận diện chính xác và duy trì các tổ chức của văn bản
* Xuất ra XML và tích hợp với Microsoft Office Word 2003
* Hỗ trợ PDF Input/Output
* Nhận dạng đa ngôn ngữ
* Legal and Medical Dictionaries
* Dễ sử dụng
* Lưu lại kết quả thành nhiều định dạng khác nhau
* WYSIWIG Text Editor
* Hỗ trợ tách ảnh
* Xuất ra thành Microsoft PowerPoint
* Chức năng tìm kiếm với Morphology Support
* Các tùy chọn lưu ảnh cao cấp
* Các ứng dụng thêm cho việc hoàn thành và in ấn các Form
* Nhận dạng mã vạch
 
Download ABBYY FineReader 11 Corporate Edition:
Link part 1: http://upfile.vn/dkNQ
Link part 2: http://upfile.vn/dkNS


Tiêu đề: Re: Hướng dẫn số hóa sách
Gửi bởi: danhthanh trong 10 Tháng Mười Hai, 2014, 09:52:20 PM
 :D :D hay quá, nhà cháu đang tự số hóa mấy quyển truyện của nhà văn Khuất Quang Thụy mà tự gõ thì rất lâu và dạo này đi làm bận không gõ được, tuy đã biết mấy phần mềm này nhưng chưa dùng thử.
Nếu được xin các bác có 1 bài chỉ giáo cách dùng cái ABYY 11 kia với ạ, vì nhà cháu thử làm thì lỗi font chữ nhiều quá, ngồi sửa thì thà tự đánh nhanh hơn ạ


Tiêu đề: Re: Hướng dẫn số hóa sách
Gửi bởi: bapchuoi trong 11 Tháng Mười Hai, 2014, 10:06:22 AM
Yêu cầu đầu tiên của bất cứ cái làm OCR nào là file gốc phải tốt!
Với trang A4 mà chụp thì cỡ máy 5 MB là được.