怎样提取PDF文档中无法被复制的文本

我是带着激动的心情写这篇经验的,因为困扰我很长时间的问题今天终于被解决:我成功提取了PDF文档中无法被复制的文本。首先,请大家仔细看下面两张来自不同的PDF文档的截图。

在第一张图所示的PDF文档中,文本文字都能够被自由复制,我们遇到的部分PDF文档就是这种类型。

然而,对第二张图所示的PDF文档,我们只能阅读它,无法复制其上的文本,这种文档有很多,今天,我们一起来看看提取这种文档的文本的方法。

怎样提取PDF文档中无法被复制的文本怎样提取PDF文档中无法被复制的文本

工具/原料

    计算机(带网络连接)

    PDF-Xchange Viewer 

    Microsoft Word 2007(Word 2003也可以)

方法/步骤

    1

    首先,我们为PDF-Xchange Viewer下载OCR中文识别模块。我们打开PDF-Xchange Viewer官方网站,找到“Chinese Language pack”选项,如图1。

    怎样提取PDF文档中无法被复制的文本

    2

    找到该项对应的“OCR AdditionalLanguagesCHI.ZIP”选项,左键单击它,进入下载页面。(如图2)

    怎样提取PDF文档中无法被复制的文本

    3

    选择下载的目标位置,单击“下载”按钮,直至其下载完成,如图3、图4。

    怎样提取PDF文档中无法被复制的文本怎样提取PDF文档中无法被复制的文本END

安装OCR中文识别模块。

    1

    解压我们刚下载完成的“OCR AdditionalLanguagesCHI.ZIP”包,安装OCR中文识别模块,按照提示,单击“OK”按钮。(如图5)

    怎样提取PDF文档中无法被复制的文本

    2

    这一步,我们建议选择默认设置(即同时安装繁体中文和简体中文识别模块),单击“NEXT”按钮。(如图6)

    怎样提取PDF文档中无法被复制的文本

    3

    然后,我们耐心等待安装完成。(如图7)

    怎样提取PDF文档中无法被复制的文本END

应用OCR中文识别模块提取文本。

    1

    打开我们要识别并提取其文本的文档(用PDF-Xchange Viewer打开),当前这些文本只能看,不能被复制(如图8)。我们单击菜单栏的“文档”选项,选择“识别页面”选项

    怎样提取PDF文档中无法被复制的文本

    2

    进入识别页面选项卡,如果我们仅需提取当前页面(仅此一页)的文本,勾选“当前页面”选项,在识别的主语言中,必须选择“Chinese(Simplied)”选项。(因为我们要提取的就是这些文字),然后单击“确定”按钮。(如图9)

    怎样提取PDF文档中无法被复制的文本

    3

    ​我们看到,OCR识别页面正在进行。(如图10)

    怎样提取PDF文档中无法被复制的文本

    4

    处理完成以后的页面如图11所示,我们惊喜地发现:这些原来不可被复制的文字已经可以被复制了!我们选取好想要复制的文本,单击右键,复制即可。​​

    怎样提取PDF文档中无法被复制的文本

    5

    ​现在我们打开Microsoft Word 2007,粘贴刚才复制的文本。(如图12)

    怎样提取PDF文档中无法被复制的文本

    6

    ​​如图13,我们看到,这些文字已经被成功提取,值得注意的是:原文档中的非中文字符可能出现复制错误的情况(当然,这是极个别现象),如图中的某处错误,这里本该英文字符“Signals”。

    怎样提取PDF文档中无法被复制的文本END

注意事项

    必须安装OCR中文识别模块,否则直接经OCR扫描后复制的文本是乱码,这点我深有体会。

    ​当然,如果要复制的是英文字符,直接扫描后复制即可。​

温馨提示:经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
免责声明:本文转载来之互联网,不代表本网站的观点和立场。如果你觉得好欢迎分享此网址给你的朋友。
转载请注明出处:https://www.baikejingyan.net/af9baVwNsAgVSBg.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年07月24日
下一篇 2023年07月24日
single-end

热门经验

single-end

相关经验

  • 飞书如何收藏文档

    飞书如何收藏文档,很多小伙伴还不了解飞书如何收藏文档,所以下面小编就带来了飞书收藏文档的方法教程,有需要的小伙伴赶紧来看一下吧。...

    2024年01月01日
    0℃
  • 怎样快速将PPT文档转化为PDF文档

    怎样快速将PPT文档转化为PDF文档,亲们,该经验已过时了,在PPT2007\PPT2010和PPT2013可直接导出PDF格式的文档。该经验只对还在使用低版本的朋友有用。有时候我们辛辛苦苦花了大量时间制作成的PPT,却被别人拿过去随随便便修改下,就署上了他的名字。这样很让不爽。但制作的文档又不能不给他。那么这个时候我们就需要将P......

    2023年08月10日
    0℃
  • 教你怎样把pdf转换成word文档

    教你怎样把pdf转换成word文档,怎样把df转换成word文档,已成为当前一热门话题。答案和方法也是各有不同,这里小编与大家分享两种方法,教大家怎样把df转换成word文档,不会的可以参考下。...

    2023年08月10日
    0℃
  • pdf文档怎样转换成ppt格式?

    pdf文档怎样转换成ppt格式,在日常工作中,有时我们在做t时,发现素材是df文档格式的,如果一页一页的去复制显得比较麻烦,并且效率比较低下,这时就可以考虑直接把df转换成t就可以了,那么怎么实现df转换成t一步到位呢?下面一起来看看。...

    2023年08月09日
    0℃
  • 怎样快速将PPT文档转化为PDF文档

    怎样快速将PPT文档转化为PDF文档,亲们,该经验已过时了,在PPT2007\PPT2010和PPT2013可直接导出PDF格式的文档。该经验只对还在使用低版本的朋友有用。有时候我们辛辛苦苦花了大量时间制作成的PPT,却被别人拿过去随随便便修改下,就署上了他的名字。这样很让不爽。但制作的文档又不能不给他。那么这个时候我们就需要将P......

    2023年07月29日
    0℃

联系我们

在线咨询: QQ交谈

邮件:baikejingyan@gmail.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信