[转]ABBYY FineReader使用指南

2012-09-19 18:36阅读：

http://blog.sina.cn/dpool/blog/u/1684271152

首先，什么是 OCR 技术？OCR （Optical Character Recognition，光学字符识别）传统上是指，电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。
本文所述 OCR，特指将 PDF 文档，拆分为一幅幅图像文件，用 OCR 技术通过相应软件，将图片中文字转换成文本，便于下一步操作（例如导入书苑的 epubBuilder 制作软件）。传说中一步到位的 PDF 转换成 EPUB ，并不在本文的讨论范畴内。。。
一、准备工作：
1. 准备 PDF 源文件，并将 PDF 按页拆分成图像文件。方法有很多，不一一赘述了，如图例1；

2. 准备 OCR 软件，本人用的是 ABBYY FineReader 10，如图例2；

二、初始工作：
1. 新建 FineReader 文档，如图例3；

2. 点击上栏“打开”图标，打开图像，打开后，软件处理图像添加进文档，如图例4、5；
提示：在新建的 FineReader 文档中，添加若干图像文件，可以合理安排工作量，例如：按章节分派，每个文档就是一个章节的图像文件；平均分派，每个文档取一个固定值的图像文件，便于均衡校对的工作量。

3. 保存 FineReader 文档，如图例6；
提示：建立并保存 FineReader 文档后，下次可以打开未完成的文档，继续校对工作。

三、设置工作：
1. 将输出设置为“另存为TXT”，如图例7；
提示：个人认为无格式的TXT文档便于后期编辑，具体喜好因人而宜。

2. 点击“选项”图标，设置“文档语言”，这个很重要，如图例8；
提示：简体中文书籍，繁体书籍，英文书籍请按相应语言设置，也可按右侧“编辑语言”，设置你要的语言，不要添加过多选项，否则将影响准确率。如图例9。

3. 在“选项”内选“查看”标签，设置软件显示待校对文字的字体，如图例10；
提示：我选“楷体”，并不是说我喜欢这个字体，而是因为，很多生僻字在楷体字库下显示不出，例如“事”和“亊”，识别为“亊 ”，在宋体下能显示，楷体不显示，便于纠错。

四、校对工作：
1. 打开 FineReader 文档（类似一个专辑），调出一组图像文件；
2. 一般情况打开左右两栏，左侧原图，右侧待校对文字；
3. 调整好两栏显示大小；
4. 打开右上角“显示不可打印字符”按钮，便于将不规则字符去除；如图例11

5. 遇到书源不好的PDF，字迹比较模糊，也可调整为上下俩栏（共4栏），识别校对，如图例12；

6. 软件会将可能错误的字符以背景颜色显示出来，便于校对更正，更正时可以手动输入，也可以鼠标移动待修改字，右键以显示待选字符，再选择正确字符。如图例13；

7. 将此档校对完毕，保存输出，如图例14；

8. 其他一些情况，如中英文混编的书籍，更复杂一些。建议分别选择识别区域，分别识别，如图例15。

9. OCR 技术的扩展应用，一份小女的卷子，手机拍下，分别识别校对。。。

五、总结：

有书友提出不必拆分为图片，直接进行转换，甚至有的软件号称可以直接 PDF 转 EPUB。当然那也是可以的，同样的 OCR 软件输出质量应该是相差无几的。但是本人是完美主义者，做事的理念是：“不喜欢难看的东西，更不喜欢错误的东西”。。。
所以多做了一些前期工作，喜欢以图片、文字对照的方式边读边校对。作完一本书，就是读完一本书，用时肯定比别人长，但精度也肯定比别人强一些。。。所以，修改了一下帖子，谨将此帖献给励志做精校、精确书籍，让他人有舒畅阅

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

[转]ABBYY FineReader使用指南

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼