
接受的 PDF输入
TET PDF IFilter 支持所有相关风格的PDF 输入:
- 直到 Acrobat DC 的所有 PDF 版本,包括 ISO 32000-1 和 32000-2 (PDF
2.0)
- 无需密码即可打开文档的受保护 PDF
- 修复损坏的 PDF 文档
国际化
除了西文文本 TETPDF IFilter 完全支持中文、日文和韩文(CJK) 文本。识别所有CJK 编码;支持水平和垂直书写模式。自动检测文本的区域设置ID(语言和区域标识符)改进了Microsoft 的分词和词干算法的结果,这对于东亚文本尤其重要。
还支持从右到左的语言,例如希伯来语和阿拉伯语。上下文字符形式被规范化,文本按逻辑顺序传递。
PDF 不仅仅是一堆页面
TET PDF IFilter 将 PDF文档视为容器,其中可能包含比普通页面更多的信息。TETPDF IFilter 索引 PDF文档中的所有相关项目:
