首先,什么是
OCR 技术?OCR (Optical Character
Recognition,光学字符识别)传统上是指,电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
本文所述 OCR,特指将 PDF 文档,拆分为一幅幅图像文件,用 OCR 技术通过相应软件,将图片中文字转换成文本,便于下一步操作(例如导入书苑的 epubBuilder 制作软件)。传说中一步到位的 PDF 转换成 EPUB ,并不在本文的讨论范畴内。。。
一、准备工作:
1.
准备 PDF 源文件,并将 PDF
按页拆分成图像文件。方法有很多,不一一赘述了,如图例1;
本文所述 OCR,特指将 PDF 文档,拆分为一幅幅图像文件,用 OCR 技术通过相应软件,将图片中文字转换成文本,便于下一步操作(例如导入书苑的 epubBuilder 制作软件)。传说中一步到位的 PDF 转换成 EPUB ,并不在本文的讨论范畴内。。。
一、准备工作:
1.

