Về nội dung sách đưa lên, em đang thử làm cách này:
OCR được trang nào, đưa lên nguyên dạng trang đó, kể cả các ngắt câu, ngắt dòng cũng để đúng theo sách.
Hình thức này theo em có mấy điều lợi:
1/ Giảm tải cho việc OCR
2/ Có thể nhiều người cùng thực hiện, chỉnh lý một tài liệu.
3/ Có thể kiểm chứng lại tài liệu gốc nhanh hơn. Ví dụ lúc OCR ra một địa danh là Quang Bình, sau trong quá trình thảo luận có người phát hiện ra không có địa danh này, lúc đó căn cứ vào số dòng, số trang để kiểm chứng lại tài liệu gốc, sẽ nhanh hơn, và có khi phát hiện ra OCR nhầm từ chữ Quảng Bình (ví dụ thế).
4/ Phục vụ trích dẫn kiểu dòng-trang-sách cho mục đích thảo luận thuận tiện và dễ kiểm chứng hơn.
Các bác cho ý kiến đi chứ