没有找到合适的产品?
联系客服协助选型:023-68661681
提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
翻译|使用教程|编辑:颜馨|2023-05-16 10:09:01.360|阅读 187 次
概述:本章介绍如何在C#中对PDF文档进行OCR并从PDF中提取文本
# 界面/图表报表/文档/IDE等千款热门软控件火热销售中 >>
Aspose.OCR是一款字符识别组件,它使得开发人员可以添加OCR功能到他们的ASP.NET Web应用程序、web服务和windows应用程序中。它提供了一个简单的类集用于控制字符识别。Aspose.OCR目的是为那些需要在他们自己的应用程序中使用图像(BMP和TIFF)的开发人员提供需求。它允许开发人员快速而简单的从图像中提取文本,并节省了从头开发一个OCR解决方案的时间和精力。
Aspose API支持流行文件格式处理,并允许将各类文档导出或转换为固定布局文件格式和最常用的图像/多媒体格式。
PDF 文件是最常见的业务文档之一。在某些情况下,我们可能需要以编程方式阅读扫描的PDF文档。从扫描的PDF文件中提取文本的困难导致了工具的开发,这些工具可以更轻松地从此类PDF文档中阅读和检索文本。根据文档的内容,出于多种原因,从 PDF 文件中提取文本可能很有用。在本文中,我们将学习如何在C#中对PDF文档进行OCR并从PDF中提取文本。
我们将使用 Aspose.OCR for .NET API 对 PDF 文档执行 OCR。它可以识别扫描的图像,智能手机照片,屏幕截图和图像区域。API 以最流行的文档和数据交换格式返回识别的文本结果。除了将图像转换为文本外,API 还可以根据扫描创建可搜索的 PDF。此外,它能够自动更正已识别文本中的拼写错误。
该 API 提供了 AsposeOcr 类,该类提供了执行 OCR 操作的各种方法。它提供了RecognizePdf(字符串,DocumentRecognitionSettings)方法来识别所提供的PDF文档中的文本。API 的 DocumentRecognitionSettings 类提供 PDF 识别过程的设置。类表示图像识别的结果。
我们可以对PDF文档执行OCR,并按照以下步骤提取识别的文本:
以下示例代码演示如何在 C# 中对 PDF 文档进行 OCR 和提取识别的文本。
// This code example demonstrates how to OCR PDF documents and extract the recognized text. // Initialize the PCR engine AsposeOcr recognitionEngine = new AsposeOcr(); // Initialize recognition settings DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings(); // Specify language for OCR. Multi-language by default recognitionSettings.Language = Language.Eng; // Recognize text from PDF List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings); // Show the recognized text foreach (RecognitionResult result in results) { Console.WriteLine(result.RecognitionText); }
我们可以对PDF文档执行OCR,并按照以下步骤保存识别的文本:
以下示例代码演示如何对 PDF 文档进行 OCR 并将识别的文本保存在 C# 中。
// This code example demonstrates how to OCR PDF documents and extract the recognized text. // Initialize the PCR engine AsposeOcr recognitionEngine = new AsposeOcr(); // Initialize recognition settings DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings(); // Specify language for OCR. Multi-language by default recognitionSettings.Language = Language.Eng; // Recognize text from PDF List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings); // Save the recognized text AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.txt", SaveFormat.Text, results);
我们可以对扫描的PDF文档执行OCR,并按照前面提到的步骤将识别的文本保存在Word文档中。但是,我们只需要在最后一步中指定 SaveFormat.Docx。
下面的示例代码演示如何在 C# 中对 PDF 进行 OCR PDF 并将识别的文本另存为 Word 文档。
// This code example demonstrates how to OCR PDF documents and save the recognized text as DOCX. // Initialize the PCR engine AsposeOcr recognitionEngine = new AsposeOcr(); // Initialize recognition settings DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings(); // Specify language for OCR. Multi-language by default recognitionSettings.Language = Language.Eng; // Recognize text from PDF List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings); // Save the recognized text as DOCX AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.docx", SaveFormat.Docx, results);
我们可以对 PDF 文档执行 OCR,并按照前面提到的步骤将识别的文本保存在 JSON 文件中。但是,我们只需要在最后一步中指定 SaveFormat.Json。
以下示例代码演示如何在 C# 中对 PDF 进行 OCR PDF 并将识别的文本另存为 JSON 文件。
// This code example demonstrates how to OCR PDF documents and save the recognized text as JSON. // Initialize the PCR engine AsposeOcr recognitionEngine = new AsposeOcr(); // Initialize recognition settings DocumentRecognitionSettings recognitionSettings = new DocumentRecognitionSettings(); // Specify language for OCR. Multi-language by default recognitionSettings.Language = Language.Eng; // Recognize text from PDF List<RecognitionResult> results = recognitionEngine.RecognizePdf("C:\\Files\\sample.pdf", recognitionSettings); // Save the recognized text as JSON AsposeOcr.SaveMultipageDocument("C:\\Files\\OCR_result.json", SaveFormat.Json, results);
以上便是如何对 PDF 文档执行 OCR 以及如何在 C# 中从 PDF 中提取文本的详细步骤,希望能帮到您,若有其他问题欢迎加入我们的技术交流群,或关注我们。
欢迎下载|体验更多Aspose产品
获取更多信息请咨询慧都在线客服或 加入Aspose技术交流群(761297826)
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@evget.com
本文主要介绍DevExpress WPF Grid控件中网格视图数据布局中的紧凑模式,欢迎下载最新版组件体验!
图像通常包含有价值的文本,但从JPG等格式中提取文本并非易事。本文将学习如何使用 Python 提取 JPG 文本。无论您是要自动化文档处理还是数字化印刷材料,此解决方案都能快速准确地为您提供结果。
Parasoft SOAtest 作为一款专业的服务级测试工具,不仅支持广泛的接口和 UI 测试能力,还能够与 Jenkins、Docker 等主流 CI 工具链无缝集成,帮助团队搭建稳定、高效、易于维护的测试自动化体系。
Aspose.Imaging for .NET是一款深受 .NET 开发人员喜爱的图像处理 SDK,因为它灵活且易于开发人员使用。本教程将演示如何借助Aspose.Imaging for .NET在 C# 中无缝地将SVG转换为EMF。
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@evget.com
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢
慧都科技 版权所有 Copyright 2003-
2025 渝ICP备12000582号-13 渝公网安备
50010702500608号