PDFlibTETPDFIFilter5的功能

2022-08-06 11:15阅读：

http://blog.sina.cn/dpool/blog/u/5662844557

接受的 PDF输入
TET PDF IFilter 支持所有相关风格的PDF 输入：

直到 Acrobat DC 的所有 PDF 版本，包括 ISO 32000-1 和 32000-2 (PDF 2.0)
无需密码即可打开文档的受保护 PDF
修复损坏的 PDF 文档

国际化
除了西文文本 TETPDF IFilter 完全支持中文、日文和韩文(CJK) 文本。识别所有CJK 编码；支持水平和垂直书写模式。自动检测文本的区域设置ID（语言和区域标识符）改进了Microsoft 的分词和词干算法的结果，这对于东亚文本尤其重要。
还支持从右到左的语言，例如希伯来语和阿拉伯语。上下文字符形式被规范化，文本按逻辑顺序传递。
PDF 不仅仅是一堆页面
TET PDF IFilter 将 PDF文档视为容器，其中可能包含比普通页面更多的信息。TETPDF IFilter 索引 PDF文档中的所有相关项目：

页面内容
书签、注释（评论）和表单域中的文本
元数据（见下文）
嵌入式 PDF 和 PDF 包（组合）以递归方式处理，以便可以搜索所有嵌入式 PDF 文档中的文本。

XMP 文档元数据和文档信息
TET PDF IFilter 中的高级元数据实现支持元数据的Windows 属性系统。它索引XMP 元数据以及标准或自定义文档信息条目。元数据索引可以在多个级别上配置：

文档信息条目、Dublin Core 字段和其他常见 XMP 属性映射到 Windows shell 属性，例如标题、主题、作者。
TET PDF IFilter 添加了有用的特定于 PDF 的伪属性，例如页面大小、PDF/A 一致性级别、字体名称。
可以索引所有相关的预定义 XMP 属性。
可以搜索用户定义的 XMP 或基于 PDF 的属性，例如公司特定的分类属性、数字签名或 ZUGFeRD/Factur-X 一致性。

TET PDF IFilter 可选择将元数据集成到全文索引中。因此，即使是不支持元数据的全文搜索引擎（例如SQL Server）也可以搜索元数据。
Unicode 后处理
TET PDF IFilter 支持各种Unicode 后处理步骤，可用于改进提取的文本：

折叠保留、删除或替换字符，例如从不相关的脚本中删除标点符号或字符。
分解用一个或多个其他字符的等效序列替换一个字符，例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。

公司名称：北京哲想软件有限公司
北京哲想软件官方网站：cogitosoft.com
北京哲想软件微信公众平台账号：cogitosoftware
北京哲想软件微博：哲想软件
北京哲想软件邮箱：sales@ cogitosoft.com
销售（俞先生）联系方式： 86（010）68421378
微信：18610247936 QQ：368531638

举报/Report

我的更多文章

下载客户端阅读体验更佳

APP专享

新浪博客

PDFlibTETPDFIFilter5的功能

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼