Aspose.OCR for .NET实现从PDF文件中提取文本和图片

2011-07-21 11:29阅读：

http://blog.sina.cn/dpool/blog/u/1566342870

　　从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字，但是它也有不完善之处。唯一的限制就是，不能从PDF文件中的图像提取文字。
　　然而，Aspose.OCR for .NET的出现消除了该限制。在这篇文章中，通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件，以提取PDF文件中的所有文字。
　　目前， Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体，以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中，会不断添加新字体和其他属性的支持。
　　为了从PDF文件和图像中完整地提取文字，你必须要经过以下三个步骤：
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
　　使用Facades中的PdfExtractor或者DOM API，可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例，以便了解从PDF文件中提取文字的相关操作：
* Extract Text from PDF using DOM API
* Extract Text from PDF using Facades

新浪博客

Aspose.OCR for .NET实现从PDF文件中提取文本和图片

分享

我的更多文章

下载客户端阅读体验更佳

疯狂捕鱼