PDFlib TET 商城购买 (产品编号:10596)

PDFlib TET是一款可以从任意PDF文档格式中可靠地提取文本信息的软件。

标签:PDF

开发商: PDFlib

当前版本: v5.2

产品类型:控件

产品功能:文档管理

平台语言:Activex & COM|.NET|JAVA|C++/ MFC|其他

开源水平:不提供源码

本产品的分类与介绍仅供参考,具体以商家网站介绍为准,如有疑问请来电 023-68661681 咨询。

文本和图像提取工具包

接受所有的PDF输入

世界所有书写系统均可使用

允许多种许可证程序运行

全球信赖的PDF产品

PDFlib TET(文本和图像提取工具包)可靠地从 PDF 文档中提取文本、图像和元数据。TET 将 PDF 的文本内容作为 Unicode 字符串提供,以及详细的颜色、字形和字体信息以及页面上的位置。以通用图像格式提取栅格图像。TET 可以选择将 PDF 文档转换为基于 XML 的格式,称为 TETML,该格式包含文本和元数据以及资源信息。TET 包含用于确定字边界、将文本分组到列、标识表结构和删除冗余项(如阴影文本)的高级内容分析算法。

需要培训、定制、外包?

请联系我们!企业QQ:800018081


慧都专业技术团队帮助您提高效率,节省成本,降低风险!

* 关于本产品的分类与介绍仅供参考,精准产品资料以官网介绍为准,如需购买请先行测试。

PDFlib TET支持功能

  • 为搜索引擎实现PDF索引器
  • 重新利用PDF中的文本和图像
  • 将PDF的内容转换为其他格式
  • 根据PDF的内容进行处理,例如,根据标题进行拆分(除TET之外还需要PDFlib + PDI)
  • 检查页面上的特定位置是否为空,例如用于放置条形码或图章
  • TET还包括pCOS界面,用于查询有关PDF文档的详细信息,例如文档信息字段和XMP元数据,字体列表,页面大小等(请参阅pCOS产品描述和pCOS Cookbook)

为什么选择TET提取文本?

用连字符号连接

TET可检测跨越多行的连字词,删除连字符,并将各个部分组合成一个完整的词。这对确保完整的单词搜索成功是很重要的,尽管文档中仅包含带连字符的部分。破折号(与连字符不同)要分开处理,因为不能将其删除。

阴影和粗体文本检测

TET的专利阴影检测算法可识别并删除多余的文本实例,以避免过多的文本提取。 就算其他软件会提取阴影或粗体文本乘积,但TET会正确删除多余的副本。 尽管一个单词的额外实例仍将导致搜索引擎的点击,但是,如示例中所示,如果逐个字符地重复复制文本,则将找不到更多的点击。

重音字符

在许多语言中,都会将重音符号和其他变音标记放置在其他字符附近,以形成组合字符。一些排版程序(最著名的是TeX)分别发出两个字符(基本字符和重音符)以创建组合字符。 例如,要创建字符ä,首先将字母a放置在页面上,然后将降压字符¨放置在页面顶部。 TET会检测到这种情况,并重新组合两个字符以形成适当的组合字符。

连字

连字在单个字形中组合了两个或更多字符。最常见的连字用于fi,fl和ffi的组合;Th,sp,ct,st和许多其他组合使用了较少见的连字。从数字文档中提取文本时,必须分析连字并将其分离为组成字符以进行正确的文本处理。TET可以检测连字并酌情提供两个或更多字符。

首字下沉

首字下沉是段落开头的较大的初始字符,其中初始字符的顶部与行的顶部对齐,而其余字符则下降几行,首字下沉用于强调段落的开头。如果对它们的处理不当,则会从两个部分提取初始单词:单个初始字符和单词其余部分,TET会正确提取完整单词。

Unicode映射

TET获得专利的Unicode映射算法实现了一种级联算法,该算法采用所有可用信息来确定Unicode值。 对于许多有问题的文档,TET会提取适当的Unicode文本,而其他产品只会传递不可用的垃圾。

带有阿拉伯语和希伯来语的双向文本

PDF不对逻辑文本进行编码,而只是页面上字形的容器。 阿拉伯语和希伯来语脚本中的文本从右到左排列。 由于它通常包含从左到右的插入物(例如西方语言中的数字或名称),因此文本必须在两个方向上都进行解释,因此使用术语“双向”。 TET对从右到左和从左到右的文本的视觉混合重新排序,以创建适当的逻辑文本输出。

修复损坏的PDF文档

PDF文档可能由于传输错误或其他问题而损坏。TET的修复模式可恢复多种损坏的PDF。有时,PDF文档损坏严重,以致页面甚至无法在Acrobat中显示。即使在这种极端情况下,TET仍经常交付文档的页面内容。

为什么选择TET提取图像?

色彩空间和压缩

PDF中的栅格图像数据可以以11种颜色空间和9种压缩滤镜的组合进行编码,但是常见的图像文件格式(例如JPEG和TIFF)仅支持这些组合的子集。TET的图像引擎在PDF图像的特性与图像输出格式的功能之间取得了平衡。无论PDF图像的内部结构如何,像素图像都是以一种常见的图像文件格式提取的。

专色

TET创建带有其他专色通道的TIFF输出。这适用于需要出色的色彩保真度并且不能接受任何颜色转换的应用。如果具有DeviceN颜色的图像仅包含常见CMYK印刷色的子集,则会添加缺少的印刷通道,以便可以创建纯CMYK输出。但是,某些应用程序可能无法处理专色通道,但仅限于普通TIFF输出。在这种情况下,可以指示TET发出单个专色通道作为灰度TIFF,以便于处理。

合并碎片图像

许多PDF文档中的图像被生成PDF的软件分解为小片段。在页面上看似单一的图像实际上可能由许多小块组成。例如,Microsoft Office应用程序和TeX通常会产生大量碎片图像,其中包含成百上千个小碎片。Adobe InDesign通常将图像分成大小不一的片段。TET检测碎片图像并将其合并以形成可用的较大图像。只有合并图像后,才能合理地重新使用碎片图像。

更新时间:2020-10-22 14:41:10.000 | 录入时间:2006-01-18 11:46:00.000 | 责任编辑:李显亮

相关产品
Aspose.Word for Python

允许开发人员在不需要Office Automation的情况下处理Word文档的API

PDF Studio

PDF Studio是一款功能强大的,易于使用的PDF编辑器,它以Adobe® Acrobat®和其他PDF工具的小部分代价在PDF文档上提供了大量的功能。

Spire.Cloud

Spire.Cloud是一款帮助WEB网站或WEB应用系统轻松处理Office文件全面的解决方案。

IronPDF

在C#中用HTML、MVC、ASPX和图像生成PDF,具备50多个阅读和编辑PDF的功能

IronXL

直观的C#和VB.NET Excel API ,不需要安装MS Office或Excel In

在线咨询
联系我们
TOP
在线客服系统
live chat