PDFlibTET(文本和图像提取工具包)可靠地从PDF文档中提取文本、图像和元数据。TET以Unicode字符串的形式提供PDF的文本内容,以及详细的颜色、字形和字体信息以及页面上的位置。光栅图像以常见的图像格式提取。TET可选择将PDF文档转换为称为TETML的基于XML的格式,其中包含文本和元数据以及资源信息。
TET包含用于确定单词边界、将文本分组到列和删除冗余文本的高级内容分析算法。使用集成的pCOS界面,您可以从PDF中检索任意对象,例如元数据、交互式元素等。
在移动和嵌入式系统上使用TET的示例
由于PDF文件在移动设备上也得到广泛使用,因此TET在移动和嵌入式系统上的使用方式不同。
TET:从PDF文档中提取文本为XML
PDFlibTET 可用于从任何PDF文档中提取文本和图像,并使其可用于重新利用。
电子邮件中的PDF附件
PDFlibTET 可以重新利用PDF附
