用于移动和嵌入式平台的TET

2022-07-23 11:15阅读：

http://blog.sina.cn/dpool/blog/u/5662844557

PDFlibTET（文本和图像提取工具包）可靠地从PDF文档中提取文本、图像和元数据。TET以Unicode字符串的形式提供PDF的文本内容，以及详细的颜色、字形和字体信息以及页面上的位置。光栅图像以常见的图像格式提取。TET可选择将PDF文档转换为称为TETML的基于XML的格式，其中包含文本和元数据以及资源信息。
TET包含用于确定单词边界、将文本分组到列和删除冗余文本的高级内容分析算法。使用集成的pCOS界面，您可以从PDF中检索任意对象，例如元数据、交互式元素等。
在移动和嵌入式系统上使用TET的示例
由于PDF文件在移动设备上也得到广泛使用，因此TET在移动和嵌入式系统上的使用方式不同。
TET：从PDF文档中提取文本为XML
PDFlibTET 可用于从任何PDF文档中提取文本和图像，并使其可用于重新利用。
电子邮件中的PDF附件
PDFlibTET 可以重新利用PDF附

新浪博客

用于移动和嵌入式平台的TET

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼