扫描识别工具Dynamic Web TWAIN使用教程:OCR(下)

翻译|使用教程|编辑:黄竹雯|2019-03-26 10:03:47.000|阅读 75 次

概述:在文档数字化的过程中,经常需要从所获取的图像中提取所需的信息。光学字符识别(OCR)是可以实现此需求的技术。在本文中,我们将探讨如何使用Dynamic Web TWAIN及其OCR加载项在浏览器中快速扫描和识别文本。

相关链接:

在Web应用程序中快速实现文本识别

Dynamic Web TWAIN最新版免费下载>>>

上一篇文章与大家分享了在Web应用程序中快速实现文本识别的环境和步骤,本文将给大家介绍如何通过代码来实现这一功能。

如何实现

在文本编辑器中打开 OCRADocument.html

对Core JavaScript文件的引用

<script type="text/javascript" src="../dist/dynamsoft.webtwain.initiate.js"></script>
<script type="text/javascript" src="../dist/dynamsoft.webtwain.config.js"></script>
<script type="text/javascript" src="../dist/addon/dynamsoft.webtwain.addon.ocr.js"></script>
<script type="text/javascript" src="../dist/addon/dynamsoft.webtwain.addon.pdf.js"></script>

这里引用的文件是

用于核心SDK Dynamic Web TWAIN的JS库

  • node_modules\dwt\dis\dynamsoft.webtwain.initiate.js
  • node_modules\dwt\dis\dynamsoft.webtwain.config.js

Dynamsoft OCR Basic的JS库

  • node_modules\dwt\dist\addon\dynamsoft.webtwain.addon.ocr.js
  • node_modules\dwt\dist\addon\dynamsoft.webtwain.addon.pdf.js

如果你以前在本地安装了Dynamic Web TWAIN,则还可以在以下目录中找到相同的文件(dynamsoft.webtwain.addon.pdf.js除外)。

C:\Program Files (x86)\Dynamsoft\Dynamic Web TWAIN SDK {version number} {Trial}\Resource

Dynamsoft OCR Basic runtime安装代码

function downloadOCRBasic(bDownloadDLL) {
    var strOCRPath = Dynamsoft.WebTwainEnv.ResourcesPath + "/OCRResources/OCR.zip",
        strOCRLangPath = Dynamsoft.WebTwainEnv.ResourcesPath + '/OCRResources/OCRBasicLanguages/English.zip';

    if (bDownloadDLL) {
        DWObject.Addon.OCR.Download(
            strOCRPath,
            function () {/*console.log('OCR dll is installed');*/
                downloadOCRBasic(false);
            },
            function (errorCode, errorString) {
                console.log(errorString);
            }
        );
    } else {
        DWObject.Addon.OCR.DownloadLangData(
            strOCRLangPath,
            function () {
            }, function (errorCode, errorString) {
                console.log(errorString);
            });
    }
}

如上面的代码所示,Dynamsoft OCR Basic安装需要两个步骤。第一步是使用 DWObject.Addon.OCR.Download 接口安装核心DLL(来自“/OCRResources/OCR.zip”的DynamicOCR.dll)。 第二步是使用DWObject.Addon.OCR.DownloadLangData 接口安装OCR语言包或识别字典('/ OCRResources / OCRBasicLanguages / English.zip')。此处仅安装英语词典,因此该程序只能识别英语。 如果你需要识别其他语言(总共27种主要语言),你可以下载完整的示例或参考此在线示例。

扫描文档和客户端OCR基础

支持的语言:Arabic, Bengali, Chinese_Simplified, Chinese_Traditional, English, French, German, Hindi, Indonesian, Italian, Japanese, Javanese, Korean, Malay, Marathi, Panjabi, Persian, Portuguese, Russian, Spanish, Swahili, Tamil, Telugu, Thai, Turkish, Vietnamese, Urdu.

使用插件

function DoOCR() {
    if (DWObject) {
        if (DWObject.HowManyImagesInBuffer == 0) {
            alert("Please scan or load an image first.");
            return;
        }
        DWObject.Addon.OCR.SetLanguage('eng');
        DWObject.Addon.OCR.SetOutputFormat(EnumDWT_OCROutputFormat.OCROF_TEXT);
        DWObject.Addon.OCR.Recognize(
            DWObject.CurrentImageIndexInBuffer,
            function (sImageIndex, result) {
                if (result == null)
                    return null;
                var _textResult = (Dynamsoft.Lib.base64.decode(result.Get())).split(/\r?\n/g), _resultToShow = [];
                for (var i = 0; i < _textResult.length; i++) {
                    if (i == 0 && _textResult[i].trim() == "")
                        continue;
                    _resultToShow.push(_textResult[i] + '<br />');
                }
                _resultToShow.splice(0, 0, '<p style="padding:5px; margin:0;">');
                _resultToShow.push('</p>');
                document.getElementById('divNoteMessage').innerHTML = _resultToShow.join('');
            },
            function (errorcode, errorstring, result) {
                alert(errorstring);
            }
        );

核心代码是

DWObject.Addon.OCR.SetLanguage('eng'); //Set the language to be recognized
DWObject.Addon.OCR.SetOutputFormat(EnumDWT_OCROutputFormat.OCROF_TEXT); //Set the output format
DWObject.Addon.OCR.Recognize(... //Start Reconizing

查看支持的输出格式 EnumDWT_OCROutputFormat

相关方法是 SetLanguage( ), SetOutputFormat( ),Recognize( ), RecognizeFile( ), RecognizeRect( ), RecognizeSelectedImages( )。 

关于Dynamic Web TWAIN使用OCR插件的教程就到此结束啦,希望对你有所帮助~


想要购买正版授权,或者获取更多Dynamic Web TWAIN相关信息的朋友可以点击" 咨询在线客服 "~
慧都315特惠


标签:扫描识别图像处理扫描与图像

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果

登录 慧都网发表评论


暂无评论...

为你推荐

  • 推荐视频
  • 推荐活动
  • 推荐产品
  • 推荐文章
  • 慧都慧问
相关厂商
相关产品
Dynamic Web TWAIN

Dynamic Web TWAIN 应用于Web应用程序的TWAIN扫描识别工具,支持所有主流浏览器

在线
客服
在线
QQ
电话
咨询
400-700-1020
购物车 反馈 返回
顶部
在线客服系统
live chat