Lịch sử Quân sự Việt Nam
Tin tức: Lịch sử quân sự Việt Nam
 
*
Chào Khách. Bạn có thể đăng nhập hoặc đăng ký. 29 Tháng Ba, 2024, 03:28:07 pm


Đăng nhập với Tên truy nhập, Mật khẩu và thời gian tự động thoát


Trang: « 1 2 3 4 5 6 7 »   Xuống
  In  
Tác giả Chủ đề: Số hóa sách với ABBYY FineReader  (Đọc 25575 lần)
0 Thành viên và 1 Khách đang xem chủ đề.
Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #20 vào lúc: 06 Tháng Tư, 2017, 03:32:42 am »

   
        d. Nhận dạng tài liệu được viết bằng nhiều ngôn ngữ

        Trong hướng dẫn bên dưới, một tài liệu chứa cả văn bản Tiếng Anh và Tiếng Trung được lấy làm ví dụ.

­        - Trên thanh công cụ chính, chọn Ngôn ngữ khác… từ danh sách thả xuống Ngôn ngữ của tài liệu. Chọn Chỉ định ngôn ngữ thủ công từ hộp thoại Trình biên tập ngôn ngữ và chọn Tiếng Trung và Tiếng Anh từ danh sách ngôn ngữ.

­­        - Quét hoặc mở hình ảnh.

­        - Nếu chương trình không phát hiện được tất cả các vùng trên hình ảnh:

           + Chỉ định vùng thủ công bằng công cụ chỉnh sửa vùng.

           + Chỉ định vùng chỉ chứa một ngôn ngữ. Để làm như vậy, chọn vùng và chỉ định ngôn ngữ trong ngăn Thuộc tính vùng.

­        Quan trọng! Chỉ có thể chỉ định ngôn ngữ cho các vùng cùng loại. Nếu bạn đã chọn các vùng thuộc nhiều loại khác nhau, như Văn bản và Bảng, bạn sẽ không thể chỉ định ngôn ngữ.

           + Nếu cần, chọn hướng văn bản từ danh sách thả xuống Định hướng (để biết chi tiết, xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng).

           + Đối với văn bản bằng các ngôn ngữ CJK, chương trình cung cấp lựa chọn hướng văn bản trong danh sách thả xuống Hướng của văn bản CJK (để biết chi tiết, xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng đúng).

­        - Nhấp vào nút Đọc trên thanh công cụ chính.

        e. Ký tự phi châu Âu không hiển thị trong cửa sổ Văn bản

        Nếu văn bản trong ngôn ngữ CJK được hiển thị không đúng trong cửa sổ Văn bản, bạn có thể đã chọn chế độ Văn bản thuần túy.

        Để thay đổi phông chữ được sử dụng trong chế độ Văn bản thuần túy:

­        - Mở hộp thoại Tùy chọn (Công cụ > Tùy chọn…).
­        - Nhấp vào tab Xem.

­        - Chọn Arial Unicode MS từ danh sách thả xuống Phông chữ được sử dụng để hiển thị văn bản thuần túy.

­        - Nhấp vào OK.

        Nếu việc này không hiệu quả và văn bản trong cửa sổ Văn bản vẫn được hiển thị không đúng, xem "Nếu một số ký tự được thay thế bằng"?" hoặc "□" trong cửa sổ Văn bản".

        f. Thay đổi hướng của văn bản được nhận dạng

        ABBYY FineReader tự động phát hiện hướng văn bản, nhưng bạn cũng có thể chỉ định hướng văn bản thủ công.

­        - Chọn một hoặc nhiều đoạn trong cửa sổ Văn bản.

­        - Nhấp vào nút  trên thanh công cụ của cửa sổ Văn bản.

        Lưu ý: Bạn có thể sử dụng danh sách thả xuống Hướng của văn bản CJK trong cửa sổ Hình ảnh để chỉ định hướng của văn bản trước khi nhận dạng. Xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng đúng để biết chi tiết.
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #21 vào lúc: 07 Tháng Tư, 2017, 11:14:35 pm »

           
        VII - GỢI Ý ĐỂ CẢI THIỆN CHẤT LƯỢNG OCR

        1/ Nếu cấu trúc phức tạp của tài liệu giấy không được tái tạo

        Trước khi chạy quy trình nhận dạng tài liệu, ABBYY FineReader thực hiện phân tích cấu trúc lôgic của tài liệu và phát hiện các vùng chứa văn bản, ảnh, bảng và mã vạch. Chương trình sau đó dựa vào phân tích này để xác định các vùng và thứ tự mà vùng được nhận dạng. Thông tin này giúp tái tạo định dạng của tài liệu gốc.

        Theo mặc định, ABBYY FineReader sẽ phân tích tài liệu tự động. Tuy nhiên, trong trường hợp định dạng rất phức tạp, một số vùng có thể được phát hiện không chính xác và bạn có thể muốn sửa chúng thủ công.

        Sử dụng các công cụ và lệnh sau để sửa vùng:

        - Công cụ điều chỉnh vùng thủ công trên thanh công cụ của cửa sổ Hình ảnh.

        - Các lệnh menu chuột phải sẵn có bằng cách nhấp chuột phải vào vùng đã chọn trong cửa sổ Hình ảnh hoặc cửa sổ Thu phóng.

        - Các lệnh trong menu Vùng.

        Bắt đầu lại quy trình OCR sau khi thực hiện điều chỉnh mong muốn.

        Cũng xem: Nếu vùng được phát hiện không chính xác.

        Cài đặt nhận dạng, cài đặt thuộc tính vùng và lưu cũng có ảnh hưởng đến việc bố cục của tài liệu gốc được lập mẫu lại tốt như thế nào. Để biết chi tiết, xem các phần sau: "Tùy chọn OCR", "Điều chỉnh thuộc tính vùng" và "Lưu kết quả OCR".

        2/ Nếu vùng được phát hiện không chính xác

        ABBYY FineReader phân tích hình ảnh trang trước khi nhận dạng và phát hiện những loại vùng khác nhau trên những hình ảnh này như Văn bản, Ảnh, Ảnh nền, Bảng và Mã vạch. Phân tích này xác định vùng nào sẽ được nhận dạng và theo thứ tự nào. Trong giao diện người dùng, các loại vùng khác nhau được phân biệt theo màu sắc đường viền của chúng.

        Nếu bạn nhấp vào một vùng, vùng đó sẽ được tô sáng và sẽ trở nên hiện hoạt. Bạn cũng có thể điều chỉnh vùng bằng cách nhấn phím Tab. Các số của vùng xác định thứ tự mà chúng đã được chọn khi nhấn phím Tab. Theo mặc định, các số vùng này không hiển thị trong cửa sổ Hình ảnh và chỉ xuất hiện nếu công cụ Sắp xếp thứ tự vùng được chọn.

        Có thể tìm thấy công cụ khoanh vùng và chỉnh sửa vùng thủ công trong cửa sổ Hình ảnh và trên thanh công cụ bật lên cho vùng Văn bản, Ảnh, Ảnh nền và Bảng (thanh công cụ bật lên xuất hiện bên cạnh vùng hoạt động).

        Quan trọng! Sau khi bạn hoàn tất chỉnh sửa vùng, chạy lại quy trình OCR.

        Bạn có thể sử dụng các công cụ chỉnh sửa vùng để:

        - Tạo vùng mới

        - Điều chỉnh đường viền vùng

        - Thêm hoặc xóa bỏ các phần của vùng

        - Chọn một hoặc nhiều vùng

        - Di chuyển vùng

        - Xếp lại thứ tự vùng

        - Xóa vùng

        - Thay đổi hướng văn bản trong vùng

        - Thay đổi màu của đường viền vùng

        - Tạo vùng mới

                + Nhấp vào một công cụ trong cửa sổ Hình ảnh:

                + khoanh vùng nhận dạng

                + khoanh vùng Văn bản;

                + khoanh vùng Ảnh;

                + khoanh vùng Ảnh nền;

                + khoanh vùng Bảng.

        - Bấm và giữ nút chuột trái và di chuyển con trỏ chuột để khoanh vùng.

        Có thể khoanh vùng mới mà không cần chọn công cụ từ thanh công cụ của cửa sổ Hình ảnh. Bạn có thể chỉ cần khoanh vùng trên hình ảnh sử dụng một trong những tổ hợp phím sau đây:

        - Ctrl+Shift khoanh vùng Văn bản

        - Alt+Shift khoanh vùng Ảnh

        - Ctrl+Alt khoanh vùng Bảng

        - Ctrl+Shift+Alt khoanh vùng Mã vạch

        Bạn có thể thay đổi loại vùng. Nhấp chuột phải vào vùng đã chọn, nhấp vào Đổi loại vùng từ menu chuột phải rồi nhấp vào loại vùng mong muốn.
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #22 vào lúc: 08 Tháng Tư, 2017, 06:40:16 am »


        - Điều chỉnh đường viền vùng

           + Đặt con trỏ chuột trên đường viền vùng.

           + Nhấp chuột trái và kéo theo hướng mong muốn.

        Lưu ý: Bạn có thể điều chỉnh đồng thời đường viền ngang và dọc của vùng bằng cách đặt con trỏ chuột ở góc của vùng.

        - Mở rộng/xóa bỏ vùng

           + Chọn công cụ  trên thanh công cụ bật lên của vùng Văn bản, Ảnh hoặc Ảnh nền.

           + Đặt con trỏ chuột bên trong vùng và chọn một phần hình ảnh. Phân đoạn này sẽ được thêm vào hoặc bị xóa khỏi vùng.

           + Điều chỉnh đường viền vùng, nếu cần.

        Lưu ý:

           + Những công cụ này chỉ có thể áp dụng cho vùng Văn bản, Ảnh hoặc Ảnh nền. Bạn không thể thêm hoặc xóa phân đoạn trong vùng Bảng hoặc Mã vạch.

           + Đường viền vùng cũng có thể được điều chỉnh bằng cách thêm các điểm chỉnh cỡ. Phân đoạn thu được có thể được kéo theo bất kỳ hướng nào sử dụng chuột. Để thêm điểm chỉnh cỡ mới, đặt con trỏ tại điểm mong muốn trên đường viền trong khi bấm và giữ Ctrl+Shift (thao tác này chuyển con trỏ thành con trỏ dạng chữ thập) và nhấp. Một điểm chỉnh cỡ mới sẽ xuất hiện trên đường viền vùng.

        - Chọn một hoặc nhiều vùng: Chọn công cụ   hoặc  trên thanh công cụ của cửa sổ Hình ảnh và nhấp vào vùng mong muốn trong khi bấm và giữ phím Ctrl. Để hủy lựa chọn, nhấp vào vùng đã chọn một lần nữa.

        - Di chuyển vùng: Chọn một vùng và di chuyển vùng trong khi bấm và giữ phím Ctrl.

        - Xếp lại thứ tự vùng

           + Nhấp vào  trên thanh công cụ hoặc nhấp vào Sắp thứ tự vùng trên menu Vùng.

           + Chọn vùng theo thứ tự mong muốn cho tài liệu đầu ra.

        Lưu ý: Vùng được tự động đánh số từ trái sang phải trong quá trình phân tích trang tự động, bất kể hướng của văn bản trên hình ảnh.

        - Xóa vùng

           + Chọn vùng bạn muốn xóa rồi bấm phím Delete.

           + Chọn vùng bạn muốn xóa, nhấp chuột phải vào một trong các vùng rồi nhấp vào Xóa trên menu chuột phải.

           + Chọn công cụ  và nhấp vào vùng bạn muốn xóa.

        Để xóa tất cả các vùng:

           + Nhấp vào Xóa tất cả vùng và văn bản trên menu chuột phải của Hình ảnh.

        Quan trọng! Xóa một vùng khỏi hình ảnh đã được nhận dạng cũng sẽ xóa đoạn tương ứng trong cửa sổ Văn bản.

        - Thay đổi hướng văn bản: Nhấp chuột phải vào vùng, nhấp vào Thuộc tính trên menu chuột phải để mở ngăn Thuộc tính vùng rồi chọn hướng văn bản mong muốn từ danh sách thả xuống Định hướng.

        Để biết thêm thông tin về chỉnh sửa thuộc tính văn bản của vùng văn bản, xem "Điều chỉnh thuộc tính vùng văn bản".

        - Thay đổi màu đường viền vùng

           + Mở hộp thoại Tùy chọn (Công cụ > Tùy chọn…) rồi nhấp vào tab Xem.

           + Chọn loại vùng trong Hình thức và chọn màu trong bảng Màu.
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #23 vào lúc: 09 Tháng Tư, 2017, 06:12:54 am »


        3/ xử lý một số lượng lớn tài liệu có bố cục tương tự nhau

        Nếu bạn đang xử lý một số lượng lớn tài liệu có bố cục giống nhau (ví dụ: biểu mẫu hoặc bảng câu hỏi), phân tích bố cục của mỗi trang sẽ tốn rất nhiều thời gian. Để tiết kiệm thời gian, bạn có thể phân tích chỉ một tài liệu trong một nhóm tài liệu tương tự nhau và lưu các vùng được phát hiện dưới dạng mẫu. Sau đó bạn có thể sử dụng mẫu này cho các tài liệu khác trong nhóm.

        Để tạo mẫu vùng:

        - Mở hình ảnh và để chương trình phân tích bố cục tự động hoặc khoanh vùng thủ công.

        - Trên menu Vùng, nhấp vào Lưu mẫu vùng… Trong hộp thoại lưu, cung cấp tên cho mẫu của bạn và nhấp vào Lưu.

        Quan trọng! Để có thể sử dụng mẫu vùng, bạn phải quét tất cả các tài liệu trong nhóm sử dụng cùng giá trị độ phân giải.

        Áp dụng mẫu vùng:

        - Trong cửa sổ Trang, chọn các trang mà bạn muốn áp dụng mẫu vùng.

        - Trên menu Vùng, nhấp vào Tải mẫu vùng…

        - Trong hộp thoại Mở mẫu vùng, chọn mẫu vùng mong muốn (tệp mẫu vùng có phần mở rộng *.blk).

        - Trong cùng hộp thoại, bên cạnh Áp dụng cho, chọn Trang được chọn để áp dụng mẫu cho các trang được chọn.

         Lưu ý: Chọn Tất cả các trang để áp dụng mẫu cho tất cả các trang trong tài liệu ABBYY FineReader hiện tại.

        - Nhấp vào nút Mở.

        4/ Nếu bảng không được phát hiện
        Vùng bảng đánh dấu bảng hoặc đoạn văn bản được sắp xếp trong dạng bảng. Nếu chương trình không thể phát hiện bảng tự động, sử dụng công cụ Bảng để khoanh vùng bảng quanh bảng.

        - Chọn công cụ  trên thanh công cụ ở đầu cửa sổ Hình ảnh và sử dụng chuột để khoanh hình chữ nhật quanh bảng trên hình ảnh của bạn.

        - Nhấp chuột phải vào bảng rồi nhấp Phân tích cấu trúc bảng trên menu chuột phải hoặc nhấp vào nút  trên thanh công cụ bật lên của vùng Bảng.

        - Sử dụng thanh công cụ bật lên, menu chuột phải của vùng bảng hoặc các lệnh trên menu Vùng để chỉnh sửa kết quả.

        - Chạy lại quy trình OCR.

        Bạn có thể thay đổi loại vùng đã được nhận dạng. Để thay đổi loại vùng thành Bảng, nhấp chuột phải vào vùng rồi nhấp Đổi loại vùng > Bảng trên menu chuột phải.

        Nếu ABBYY FineReader không thể phát hiện chính xác hàng và cột trong bảng tự động, bạn có thể điều chỉnh bố cục thủ công và chạy lại quy trình OCR.

        - Sử dụng các lệnh trên menu Vùng hoặc các lệnh trên menu chuột phải cùng vùng Bảng để:

              + Phân tích cấu trúc bảng (tự động phân tích cấu trúc bảng và tránh
cho bạn khỏi rắc rối của việc vẽ dấu phân cách ngang và dọc thủ công);

              + Tách ô, Hợp nhất ô và Hợp nhất dòng (cho phép bạn sửa mọi hàng hoặc cột bị xác định sai)

              + Sử dụng thanh công cụ bật lên của bảng đã chọn để: Thêm dấu phân cách ngang hoặc dọc, xóa dấu phân cách bảng, phân tích cấu trúc bảng, tách ô bảng hoặc trộn ô hoặc hàng bảng (nhấp vào vùng Bảng rồi nhấp vào công cụ thích hợp trên thanh công cụ bật lên:   ).

        Gợi ý: Nhấp vào công cụ  trên thanh công cụ bật lên để chọn đối tượng.

        Lưu ý:

              + Lệnh tách ô chỉ có thể được áp dụng cho ô bảng đã được trộn trước đó.

              + Để trộn hoặc tách ô hoặc hàng bảng, chọn chúng trên hình ảnh rồi chọn công cụ hoặc lệnh menu thích hợp.

              + Nếu bảng chứa ô văn bản dọc, bạn có thể cần thay đổi thuộc tính văn bản trước.

              + Nếu ô bảng chỉ chứa hình ảnh, chọn tùy chọn Xử lý các ô đã chọn như hình ảnh trong ngăn Thuộc tính vùng (nhấp chuột phải vào vùng rồi nhấp vào Thuộc tính trên menu chuột phải).

        Nếu ô chứa tổ hợp hình ảnh và văn bản, chọn hình ảnh để chuyển thành vùng riêng biệt bên trong ô.

         Cũng xem:

              + Nếu văn bản dọc hoặc đảo ngược không được nhận dạng

              + Nếu vùng được phát hiện không chính xác

              + Điều chỉnh thuộc tính vùng
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #24 vào lúc: 11 Tháng Tư, 2017, 09:52:16 am »

     
        5/ Nếu ảnh không được phát hiện

        Vùng ảnh đánh dấu ảnh được chứa trong tài liệu của bạn. Bạn cũng có thể sử dụng Vùng ảnh nếu bạn không muốn đoạn văn bản được nhận dạng. Nếu chương trình không thể phát hiện ảnh tự động, sử dụng công cụ Ảnh để khoanh vùng ảnh quanh ảnh theo cách thủ công.

        - Trên thanh công cụ ở đầu cửa sổ Hình ảnh, chọn công cụ  rồi sử dụng chuột để khoanh hình chữ nhật quanh ảnh trên hình ảnh của bạn.

        - Chạy lại quy trình OCR.

        Nếu có văn bản in trên ảnh trong tài liệu của bạn, khoanh vùng Ảnh nền quanh ảnh.

        - Trong cửa sổ Hình ảnh, chọn  trên thanh công cụ và vẽ khung quanh ảnh.
Lưu ý: Nếu bạn không thấy công cụ này trên thanh công cụ, thêm công cụ này. Xem Thanh công cụ để biết hướng dẫn chi tiết.

        - Khởi động quy trình OCR.

        Bạn có thể thay đổi vùng hiện tại thành Ảnh hoặc Ảnh nền. Nhấp chuột phải vào vùng rồi nhấp vào Đổi loại vùng thành > Hình ảnh hoặc Đổi loại vùng thành > Hình ảnh nền.

         Để biết thêm về loại vùng và chỉnh sửa vùng, xem Nếu vùng được phát hiện không chính xác.

        6/ Nếu mã vạch không được phát hiện

        Vùng mã vạch đánh dấu các mã vạch chứa trong tài liệu. Nếu tài liệu của bạn chứa mã vạch mà bạn muốn đưa ra dưới dạng chuỗi chữ cái và chữ số chứ không phải hình ảnh, chọn mã vạch và thay đổi loại vùng thành Mã vạch.

        Lưu ý: Nhận dạng mã vạch bị tắt theo mặc định. Để bật nhận dạng mã vạch, nhấp vào Công cụ > Tùy chọn…, nhấp vào tab Đọc và chọn tùy chọn Tìm kiếm mã vạch.

        Để khoanh vùng mã vạch và nhận dạng vùng:

        - Giữ Ctrl+Shift+Alt và sử dụng chuột để chọn mã vạch trong cửa sổ Hình ảnh hoặc trong cửa sổ Thu phóng.

        - Chạy quy trình OCR.

        Các loại mã vạch được hỗ trợ:

              + Mã 3 trên 9
              + Mã kiểm tra 3 trên 9
              + Mã 3 trên 9 không có dấu hoa thị
              + Codabar
              + Mã 93
              + Mã 128
              + EAN 8
              + EAN 13
              + IATA 2 trên 5
              + Xen kẽ 2 trên 5
              + Xen kẽ kiểm tra 2 trên 5
              + Ma trận 2 trên 5
              + Postnet
              + Chuẩn công nghiệp 2 trên 5
              + UCC-128
              + UPC-A
              + UPC-E
              + PDF417
              + Mã Aztec
              + Ma trận dữ liệu
              + Mã QR
              + Mã vá

        Lưu ý: Loại mã vạch mặc định là Dò tự động, điều đó có nghĩa là loại mã vạch sẽ được phát hiện tự động. Tuy nhiên, không phải tất cả các loại mã vạch đều được tự động phát hiện và đôi khi bạn có thể cần chọn loại thích hợp một cách thủ công trên ngăn Thuộc tính vùng.

        ABBYY FineReader có thể tự động phát hiện các loại mã vạch sau: Mã 3 trên 9, Mã 93, Mã 128, EAN 8, EAN 13, Postnet, UCC-128, UPC-E, PDF417, UPC-A và mã QR.

        7/ Điều chỉnh thuộc tính vùng

        Khi thực hiện phân tích tài liệu tự động, ABBYY FineReader phát hiện các loại vùng khác nhau trên các trang tài liệu (như bảng, ảnh, văn bản và mã vạch). Chương trình cũng phân tích cấu trúc tài liệu và xác định tiêu đề và các thành phần bố cục khác như đầu trang và chân trang, hình ảnh và chú thích biểu đồ, v.v..

        Bạn có thể thay đổi thủ công các thuộc tính được xác định sai trong một số vùng Văn bản và Bảng.

        Chọn vùng trong cửa sổ Hình ảnh hoặc cửa sổ Thu phóng và điều chỉnh các thuộc tính trong ngăn Thuộc tính vùng của cửa sổ Hình ảnh.

        Ngăn Thuộc tính vùng cho phép bạn đặt các thuộc tính sau:

        - Ngôn ngữ. Để biết chi tiết, xem "Các tính năng của tài liệu cần xem xét trước khi OCR".

        - Chức năng hiển thị chức năng của văn bản, ví dụ đầu trang hoặc chân trang, ghi chú cuối trang, v.v... (chỉ áp dụng đối với các vùng Văn bản).

        - Định hướng. "Để biết chi tiết, xem Nếu văn bản dọc hoặc đảo ngược không được nhận dạng".

        - Kiểu in. Để biết chi tiết, xem "Các tính năng của tài liệu cần xem xét trước khi OCR".

        - Đảo ngược. "Để biết chi tiết, xem "Nếu văn bản dọc hoặc đảo ngược không được nhận dạng".

        - Hướng của văn bản CJK. Để biết chi tiết, xem "Làm việc với ngôn ngữ chữ viết phức tạp".

        Lưu ý:

        Sử dụng các nút  /  để điều hướng sang trái và sang phải dọc theo ngăn thuộc tính nếu cửa sổ Hình ảnh không đủ rộng để hiển thị toàn bộ ngăn thuộc tính.

        Có thể sửa đổi một số thuộc tính văn bản sử dụng menu chuột phải khả dụng khi bạn nhấp chuột phải vào vùng Văn bản.

       Chạy lại quy trình OCR sau khi thực hiện các thay đổi cần thiết.

       Cũng xem "Nếu vùng được phát hiện không chính xác".
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #25 vào lúc: 12 Tháng Tư, 2017, 01:23:16 am »

       
        8/ Phông chữ không chính xác được sử dụng hoặc một số ký tự được thay thế bằng "?" hoặc "□"

        Nếu bạn thấy "?" hoặc "□" thay thế các chữ cái trong cửa sổ Văn bản, kiểm tra để xem liệu phông chữ đã chọn để hiển thị văn bản được nhận dạng có chứa tất cả các ký tự được sử dụng trong văn bản của bạn không.

         Để biết chi tiết, xem "Phông chữ bắt buộc".

        Bạn có thể thay đổi phông chữ trong văn bản được nhận dạng mà không cần khởi chạy lại quy trình OCR.

        Để thay đổi phông chữ trong một tài liệu ngắn:

        - Chọn đoạn văn bản có một số ký tự được hiển thị không chính xác.

        - Nhấp chuột phải vào lựa chọn rồi nhấp vào Thuộc tính trên menu chuột phải.

        - Trong ngăn Thuộc tính văn bản, chọn phông chữ mong muốn. Phông chữ trong đoạn văn bản đã chọn sẽ thay đổi tương ứng.

        Để thay đổi phông chữ trong tài liệu dài có kiểu được sử dụng:

        - Trên menu Công cụ, nhấp vào Trình biên tập phong cách….

        - Trong hộp thoại Trình biên tập kiểu, chọn kiểu mong muốn và thay đổi phông chữ.

        - Nhấp vào OK. Phông chữ trong tất cả các đoạn văn bản sử dụng kiểu này sẽ thay đổi tương ứng.

        Quan trọng! Nếu tài liệu ABBYY FineReader được nhận dạng hoặc chỉnh sửa trên máy tính khác, văn bản trong tài liệu có thể được hiển thị không chính xác trên máy tính của bạn. Nếu bạn gặp trường hợp này, đảm bảo tất cả phông chữ được sử dụng trong tài liệu này được cài đặt trên máy của bạn.

        9/ Tài liệu in chứa phông chữ phi tiêu chuẩn

        Chế độ lập mẫu cải thiện chất lượng OCR trên tài liệu có phông chữ trang trí hoặc tài liệu chứa các ký tự đặc biệt (ví dụ: ký hiệu toán học).

        Lưu ý: Bạn không nên sử dụng chế độ lập mẫu trong các trường hợp khác, vì kết quả thu được về chất lượng nhận dạng sẽ không đáng kể so với thời gian và công sức bạn bỏ ra để lập mẫu.

        Trong chế độ lập mẫu, mẫu người dùng được tạo có thể được sử dụng khi
thực hiện OCR trên toàn bộ văn bản.

        - Sử dụng mẫu người dùng

        - Tạo và lập mẫu người dùng

        - Chọn mẫu người dùng

        - Chỉnh sửa mẫu người dùng

        a/ Sử dụng mẫu người dùng

        Để sử dụng mẫu để nhận dạng tài liệu:

        - Mở hộp thoại Tùy chọn (Công cụ > Tùy chọn…) rồi nhấp vào tab Đọc.

        - Trong Huấn luyện, chọn tùy chọn Chỉ sử dụng mẫu người dùng.

        Lưu ý: Nếu bạn chọn Sử dụng mẫu có sẵn và người dùng, ABBYY FineReader 12 sẽ sử dụng cả mẫu người dùng và mẫu được đặt trước khi xuất xưởng để OCR.

        - Nhấp vào nút Trình biên tập mẫu….

        - Trong hộp thoại Trình biên tập mẫu, chọn mẫu mong muốn rồi nhấp OK.

        - Trong cửa sổ chính ABBYY FineReader, nhấp vào nút Đọc.

        b/ Tạo và lập mẫu người dùng

        Để lập mẫu nhận dạng riêng để nhận dạng các ký tự và chữ dính mới:

        - Mở hộp thoại Tùy chọn (Công cụ > Tùy chọn…) rồi nhấp vào tab Đọc.

        - Trong Huấn luyện, chọn Sử dụng mẫu có sẵn và người dùng hoặc Chỉ sử dụng mẫu người dùng.

        - Chọn tùy chọn Đọc và huấn luyện.

        - Nhấp vào nút Trình biên tập mẫu….

        Lưu ý: Không hỗ trợ lập mẫu cho ngôn ngữ châu Á.

        - Trong hộp thoại Trình biên tập mẫu, nhấp vào Mới…

        - Hộp thoại Tạo mẫu sẽ mở ra. Nhập tên của mẫu người dùng và nhấp OK.

        - Đóng hộp thoại Trình biên tập mẫu và Tùy chọn bằng cách nhấp vào nút OK trong mỗi hộp thoại.

        - Trên thanh công cụ ở đầu cửa sổ Hình ảnh, nhấp vào Đọc.

        Giờ đây, nếu ABBYY FineReader gặp một ký tự chưa xác định, ký tự này sẽ được hiển thị trong hộp thoại Đào tạo về mẫu chữ.

        - Hướng dẫn chương trình đọc các ký tự và chữ dính mới.

        Chữ dính là tổ hợp của hai hay ba ký tự bị "dính vào nhau" (ví dụ: fi, fl, ffi, v.v..) và làm cho chương trình khó tách riêng. Thực tế, có thể đạt được các kết quả tốt hơn bằng cách coi chúng là các ký tự ghép.

        Lưu ý: Các từ được in kiểu in đậm hoặc in nghiêng trong văn bản của bạn hoặc các từ trong ký tự trên đầu/ký tự dưới chân có thể được giữ lại trong văn bản nhận dạng bằng cách chọn các tùy chọn tương ứng trong Hiệu ứng.

        Để quay lại ký tự đã lập mẫu trước đó, nhấp vào nút Quay lại. Khung sẽ chuyển tới vị trí trước và tương ứng "hình ảnh ký tự - ký tự bàn phím" được lập mẫu gần nhất sẽ bị xóa khỏi mẫu. Nút Quay lại điều hướng giữa các ký tự của một từ và sẽ không điều hướng giữa các từ.

        Quan trọng!

              + Bạn chỉ có thể lập mẫu cho ABBYY FineReader đọc các ký tự có trong bảng chữ cái của ngôn ngữ nhận dạng. Để lập mẫu cho chương trình đọc các ký tự không thể nhập từ bàn phím, sử dụng kết hợp hai ký tự để biểu thị những ký tự không tồn tại này hoặc sao chép ký tự mong muốn từ hộp thoại Chèn ký tự (nhấp vào   để mở hộp thoại).

              + Mỗi mẫu có thể chứa tối đa 1.000 ký tự mới. Tuy nhiên, tránh tạo quá nhiều chữ dính vì điều này có thể ảnh hưởng xấu đến chất lượng OCR.
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #26 vào lúc: 17 Tháng Tư, 2017, 03:15:47 am »

         
       c. Chọn mẫu người dùng

        ABBYY FineReader cho phép bạn sử dụng mẫu để cải thiện chất lượng OCR

        - Trên menu Công cụ, nhấp vào Trình biên tập mẫu….

        - Trong hộp thoại Trình biên tập mẫu, chọn mẫu mong muốn từ danh sách các mẫu sẵn có và nhấp vào Đặt mẫu hiện hoạt.

        Một số điểm quan trọng cần ghi nhớ:

        - Thay vì phân biệt một số ký tự tương tự là khác nhau, ABBYY FineReader nhận dạng chúng là một ký tự giống nhau. Ví dụ: dấu ngoặc thẳng ('), trái (‘) và phải (’) sẽ được lưu trữ trong một mẫu dưới dạng một ký tự duy nhất (dấu ngoặc thẳng). Điều này có nghĩa là dấu ngoặc trái và phải sẽ không bao giờ được sử dụng trong văn bản được nhận dạng, ngay cả khi bạn cố gắng lập mẫu chúng.

        - Đối với một số hình ảnh ký tự, ABBYY FineReader sẽ chọn ký tự bàn phím tương ứng dựa trên ngữ cảnh xung quanh. Ví dụ: hình ảnh hình tròn nhỏ sẽ được nhận dạng là chữ O nếu có các chữ cái ngay bên cạnh nó và là số 0 nếu có các chữ số bên cạnh nó.

        - Mẫu chỉ có thể được sử dụng cho các tài liệu có phông chữ, cỡ phông và độ phân giải như tài liệu được dùng để tạo mẫu.

        - Để có thể sử dụng một mẫu sau này, lưu mẫu vào một tệp. Xem "Tài liệu FineReader là gì?" để biết chi tiết.

        - Để nhận dạng văn bản được thiết lập trong phông chữ khác, đảm bảo vô hiệu mẫu người dùng bằng cách chọn tùy chọn Chỉ sử dụng mẫu có sẵn trong Công cụ > Tùy chọn… > Đọc.

      d.  Chỉnh sửa mẫu người dùng

        Bạn có thể muốn chỉnh sửa mẫu mới tạo của mình trước khi khởi chạy quy trình OCR. Mẫu được lập không chính xác có thể ảnh hưởng xấu đến chất lượng OCR. Mẫu chỉ được chứa toàn bộ ký tự hoặc chữ dính. Các ký tự có cạnh bị cắt và các ký tự có sự tương ứng chữ cái không chính xác phải được xóa khỏi mẫu.

        - Trên menu Công cụ, nhấp vào Trình biên tập mẫu….

        - Hộp thoại Trình biên tập mẫu sẽ mở ra. Chọn mẫu mong muốn và nhấp vào nút Chỉnh sửa….

        - Trong hộp thoại Mẫu chữ của người dùng mở ra, chọn một ký tự và nhấp vào nút Thuộc tính….

        Trong hộp thoại mở ra:

           + Nhập chữ cái tương ứng với ký tự trong trường Ký tự

           + Chỉ định hiệu ứng phông chữ mong muốn (in đậm, in nghiêng, ký tự trên đầu và ký tự dưới chân) trong trường Hiệu ứng.

        Nhấp vào nút Xóa trong hộp thoại Mẫu chữ của người dùng để xóa ký tự đã được lập mẫu không chính xác.
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #27 vào lúc: 18 Tháng Tư, 2017, 06:08:07 am »

        
        10/ Nếu văn bản chứa quá nhiều thuật ngữ chuyên ngành hoặc từ hiếm

        ABBYY FineReader 12 kiểm tra các từ được nhận dạng so với từ điển nội bộ. Nếu văn bản bạn muốn nhận dạng chứa nhiều thuật ngữ chuyên ngành, từ viết tắt và tên, bạn có thể cải thiện độ chính xác nhận dạng bằng cách thêm chúng vào từ điển.

        - Trên menu Công cụ, nhấp Xem từ điển….

        - Trong hộp thoại Từ điển người dùng, chọn ngôn ngữ mong muốn và nhấpXem….

        - Hộp thoại Từ điển sẽ mở. Trong hộp thoại này, nhập một từ và nhấp Thêm hoặc chọn một từ và nhấp Xóa.

        Nếu từ điển đã có từ mà bạn đang định thêm, một thông báo cho biết từ bạn đang định thêm đã có trong từ điển sẽ được hiển thị.
Bạn có thể nhập từ điển người dùng được tạo trong các phiên bản trước của ABBYY FineReader (tức là 9.0, 10 và 11).

        - Trên menu Công cụ, nhấpXem từ điển…, chọn ngôn ngữ mong muốn rồi nhấp Xem…

        - Hộp thoại Từ điển sẽ mở. Trong hộp thoại này, nhấp vào nút Nhập… và chọn tệp từ điển bạn muốn nhập (tệp này phải có phần mở rộng là *.pmd, *.txt hoặc *.dic).

        11/ Nếu chương trình không nhận dạng được một số ký tự

        ABBYY FineReader sử dụng dữ liệu về ngôn ngữ tài liệu khi nhận dạng văn bản. Chương trình có thể không nhận dạng được một số ký tự trong các tài liệu có các thành phần ít gặp (ví dụ: số mã số) vì ngôn ngữ tài liệu có thể không chứa những ký tự này. Để nhận dạng những tài liệu này, bạn có thể tạo ngôn ngữ tùy chỉnh có tất cả các ký tự cần thiết. Bạn cũng có thể gán nhiều ngôn ngữ cho các nhóm ngôn ngữ và sử dụng các nhóm này để nhận dạng.

        Tạo ngôn ngữ người dùng

        - Trên menu Công cụ, nhấp vào Trình biên tập ngôn ngữ…

        - Trong hộp thoại Trình biên tập ngôn ngữ, nhấp vào Mới…

        - Trong hộp thoại mở ra, chọn tùy chọn Tạo ngôn ngữ mới dựa trên ngôn ngữ hiện có, rồi chọn ngôn ngữ sẽ được sử dụng làm cơ sở cho ngôn ngữ mới của bạn và nhấp OK.

        - Hộp thoại Thuộc tính ngôn ngữ sẽ mở ra. Trong hộp thoại này:

                + Nhập tên của ngôn ngữ mới.

                + Ngôn ngữ cơ sở bạn đã chọn trước đây sẽ được hiển thị trong danh sách thả xuống Ngôn ngữ gốc. Bạn có thể thay đổi ngôn ngữ nguồn.

                + Bảng chữ cái chứa bảng chữ cái của ngôn ngữ cơ sở. Nhấp vào nút  nếu bạn muốn chỉnh sửa bảng chữ cái.

                + Có một số tùy chọn liên quan đến Từ điển sẽ được chương trình sử dụng khi nhận dạng văn bản và kiểm tra kết quả:

   * Không: Ngôn ngữ sẽ không có từ điển.

   * Từ điển tích hợp: Từ điển tích hợp của chương trình sẽ được sử dụng.

   * Từ điển của người dùng: Nhấp vào nút Chỉnh sửa… để chỉ định các thuật ngữ trong từ điển hoặc nhập từ điển tùy chỉnh hoặc tệp văn bản sẵn có với mã hóa Windows-1252 (các thuật ngữ phải được tách riêng bằng dấu cách hoặc các ký tự khác không có trong bảng chữ cái).

   Lưu ý: Các từ trong từ điển người dùng sẽ không được đánh dấu là sai khi được kiểm tra chính tả trong văn bản được nhận dạng. Chúng có thể được viết bằng toàn bộ chữ cái viết thường hoặc toàn bộ chữ cái viết hoa hoặc có thể bắt đầu bằng chữ cái viết hoa.

   Từ trong từ điển   Các từ sẽ không được coi là sai khi kiểm tra chính tả

abc   abc, Abc, ABC
Abc   abc, Abc, ABC
ABC   abc, Abc, ABC
aBc   aBc, abc, Abc, ABC

   * Biểu thức thông thường: Bạn có thể tạo từ điển ngôn ngữ tùy chỉnh bằng các biểu thức chính quy. Để biết chi tiết, xem "Biểu thức chính quy".

   * Ngôn ngữ có thể có một vài thuộc tính bổ sung. Để thay đổi những thuộc tính này, nhấp vào nút Nâng cao….

Hộp thoại Thuộc tính ngôn ngữ nâng cao sẽ mở ra. Tại đây bạn có thể chỉ định:

   Các ký tự có thể nằm trong phần đầu hoặc cuối từ
   Các ký tự không phải chữ cái xuất hiện riêng với từ
   Các ký tự có thể xuất hiện ở giữa từ và sẽ được bỏ qua.
   Các ký tự không thể xuất hiện trong văn bản được nhận dạng sử dụng từ điển này (các ký tự bị cấm)
   Tất cả các ký tự có thể nhận dạng từ ngôn ngữ

   Bạn cũng có thể bật tùy chọn Văn bản có thể chứa chữ số Ả Rập, chữ số La Mã và từ viết tắt

        - Bây giờ bạn có thể chọn ngôn ngữ mới được tạo khi chọn ngôn ngữ tài liệu.
 Xem "Các tính năng của tài liệu cần xem xét trước khi OCR" để biết thêm thông tin về ngôn ngữ tài liệu.

        Theo mặc định, ngôn ngữ người dùng được lưu vào thư mục tài liệu FineReader. Bạn cũng có thể lưu ngôn ngữ người dùng và mẫu người dùng dưới dạng một tệp. Để làm như vậy, trên menu Công cụ, nhấp vào Tùy chọn… để mở hộp thoại Tùy chọn, nhấp vào tab Đọc rồi nhấp vào nút Lưu vào tệp....
« Sửa lần cuối: 19 Tháng Tư, 2017, 03:39:55 am gửi bởi Giangtvx » Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #28 vào lúc: 19 Tháng Tư, 2017, 03:44:58 am »

       
        Tạo nhóm ngôn ngữ

        Nếu bạn định sử dụng một kết hợp ngôn ngữ cụ thể thường xuyên, bạn có thể muốn nhóm các ngôn ngữ với nhau cho thuận tiện.

        - Trên menu Công cụ, nhấp vào Trình biên tập ngôn ngữ….

        - Trong hộp thoại Trình biên tập ngôn ngữ, nhấp vào Mới….

        - Trong hộp thoại Nhóm hoặc ngôn ngữ mới, chọn Tạo nhóm ngôn ngữ mới và nhấp OK.

        - Trong hộp thoại Thuộc tính nhóm ngôn ngữ, nhập tên cho nhóm mới của bạn và chọn ngôn ngữ mong muốn.

        Lưu ý: Nếu bạn biết rằng văn bản của mình sẽ không chứa các ký tự nhất định, bạn có thể muốn chỉ định rõ ràng các ký tự bị cấm này. Chỉ định các ký tự bị cấm có thể tăng tốc độ và chất lượng nhận dạng. Để chỉ định các ký tự bị cấm, nhấp vào nút Nâng cao… trong hộp thoại Thuộc tính nhóm ngôn ngữ. Trong hộp thoại Thuộc tính nhóm ngôn ngữ nâng cao, nhập các ký tự bị cấm trong trường Các ký tự bị cấm.

        - Nhấp vào OK.

        Nhóm mới được tạo sẽ được thêm vào danh sách thả xuống Ngôn ngữ của tài liệu trên thanh công cụ chính.

        Theo mặc định, các nhóm ngôn ngữ người dùng được lưu trong thư mục tài liệu FineReader. Bạn cũng có thể lưu ngôn ngữ người dùng và mẫu người dùng dưới dạng một tệp. Để làm như vậy, trên menu Công cụ, nhấp vào Tùy chọn… để mở hộp thoại Tùy chọn, nhấp vào tab Đọc rồi nhấp vào nút Lưu vào tệp….

        Gợi ý: Nếu bạn cần kết hợp ngôn ngữ cụ thể cho tài liệu, bạn cũng có thể chọn ngôn ngữ mong muốn trực tiếp, mà không cần tạo nhóm.

        - Từ danh sách thả xuống Ngôn ngữ của tài liệu, chọn Ngôn ngữ khác….

        - Trong hộp thoại Trình biên tập ngôn ngữ, chọn Chỉ định ngôn ngữ thủ công.

        - Chọn ngôn ngữ mong muốn và nhấp Hủy.

        Nếu văn bản dọc hoặc đảo ngược không được nhận dạng

        Đoạn văn bản được nhận dạng có thể chứa nhiều lỗi nếu hướng của đoạn được phát hiện không chính xác hoặc nếu văn bản trong đoạn bị đảo ngược (nghĩa là văn bản sáng được in trên nền tối).

        Để giải quyết sự cố này:

        - Trong cửa sổ Hình ảnh, chọn vùng hoặc ô bảng chứa văn bản dọc hoặc đảo ngược.

        - Trong ngăn Thuộc tính vùng (nhấp chuột phải vào vùng rồi nhấp vào Thuộc tính trên menu chuột phải để hiển thị ngăn), chọn:

           + Hướng của văn bản từ danh sách thả xuống Hướng của văn bản CJK
hoặc

           + Đảo ngược từ danh sách thả xuống Đảo ngược

        - Chạy lại quy trình OCR.

        Để biết thêm thông tin về các vùng, xem "Nếu vùng được phát hiện không chính xác".
Logged

Giangtvx
Thượng tá
*
Bài viết: 25560


« Trả lời #29 vào lúc: 20 Tháng Tư, 2017, 03:19:06 pm »

       
        VIII -  KIỂM TRA VÀ CHỈNH SỬA VĂN BẢN

        Khi quá trình OCR hoàn tất, văn bản đã được nhận dạng xuất hiện trong cửa sổ Văn bản. Các ký tự được nhận dạng có độ tin cậy thấp sẽ được tô sáng, vì vậy bạn có thể dễ dàng phát hiện lỗi OCR và sửa lỗi.

        Bạn có thể chỉnh sửa văn bản được nhận dạng trực tiếp trong cửa sổ Văn bản hoặc trong hộp thoại Xác minh (nhấp vào Công cụ > Xác minh… để mở hộp thoại). Trong hộp thoại Xác minh, bạn có thể xem lại các từ có độ tin cậy thấp, sửa lỗi chính tả và thêm các từ mới vào từ điển người dùng.

        ABBYY FineReader cũng cho phép bạn thay đổi định dạng của tài liệu đầu ra. Để định dạng văn bản được nhận dạng, sử dụng các nút trên thanh công cụ chính của cửa sổ Văn bản hoặc các nút trên ngăn Thuộc tính văn bản (nhấp chuột phải vào bất kỳ đâu trong cửa sổ Văn bản rồi nhấp vào Thuộc tính trên menu chuột phải để hiển thị ngăn).

        Lưu ý: Khi đọc văn bản, ABBYY FineReader nhận dạng kiểu được dùng trong văn bản. Tất cả các kiểu được nhận dạng sẽ được hiển thị trong ngăn Thuộc tính văn bản. Bạn có thể chỉnh sửa kiểu để nhanh chóng thay đổi định dạng của toàn bộ văn bản. Khi lưu văn bản được nhận dạng thành DOCX, ODT hoặc RTF, tất cả các kiểu sẵn có có thể được giữ nguyên.

        1/ Kiểm tra văn bản trong cửa sổ Văn bản

        Bạn có thể chỉnh sửa văn bản được nhận dạng trực tiếp trong cửa sổ Văn bản hoặc trong hộp thoại Xác minh (nhấp vào Công cụ > Xác minh… để mở hộp thoại). Trong hộp thoại Xác minh, bạn có thể xem lại các từ có độ tin cậy thấp, sửa lỗi chính tả và thêm các từ mới vào từ điển người dùng.

        a) Kiểm tra văn bản trong cửa sổ Văn bản

        Bạn có thể kiểm tra, chỉnh sửa và định dạng kết quả nhận dạng trong cửa sổ Văn bản.

        Thanh công cụ của cửa sổ Văn bản ở phía bên trái cửa sổ có các nút cho phép bạn kiểm tra chính tả. Sử dụng các nút  /  để tới từ hoặc ký tự có độ tin cậy thấp tiếp theo/trước. Nếu các ký tự có độ tin cậy thấp không được tô sáng, nhấp vào nút  trên thanh công cụ của cửa sổ Văn bản.

        Để kiểm tra từ có độ tin cậy thấp trong cửa sổ Văn bản:

        - Nhấp vào từ đó trong cửa sổ Văn bản. Từ sẽ được tô sáng trong cửa sổ Hình ảnh. Đồng thời, cửa sổ Thu phóng sẽ hiển thị hình ảnh được phóng đại của từ.

        - Sửa từ trong cửa sổ Văn bản, nếu cần.
Gợi ý: Bạn có thể chèn các ký hiệu không có trên bàn phím bằng cách nhấp vào nút  . Bạn cũng có thể sử dụng hộp thoại Xác minh.

        Phương pháp này rất tiện lợi khi bạn cần so sánh tài liệu nguồn và tài liệu đầu ra.

        Có thể tìm thấy các công cụ định dạng văn bản trên thanh công cụ trong cửa sổ Văn bản


        Ngăn Thuộc tính văn bản (nhấp chuột phải vào bất kỳ đâu trong cửa sổ Văn bản rồi nhấp vàoThuộc tính trên menu chuột phải để hiển thị ngăn)

        Lưu ý: Sử dụng các nút > và < để di chuyển quanh ngăn Thuộc tính nếu cửa sổ Văn bản quá hẹp và bạn không thể thấy toàn bộ ngăn.

       
        Để tìm hiểu cách bạn có thể thay đổi hình thức của cửa sổ chính và các công cụ có sẵn trên thanh công cụ, vui lòng xem phần "Cửa sổ chính" và "Thanh công cụ".
Logged

Trang: « 1 2 3 4 5 6 7 »   Lên
  In  
 
Chuyển tới:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.21 | SMF © 2006-2008, Simple Machines

Valid XHTML 1.0! Valid CSS! Dilber MC Theme by HarzeM