提取图片(扫描版PDF)中的文字

有时候在书上看到一篇好文章用相机拍下来,或是纸质文章需要输入到电脑时,如果数量比较大,手动输入会很慢,下面介绍几中方法将图片中的文字转化为文本,同样适用于影印版PDF。

只要图片中的文字不是很模糊,识别的正确率还是很高的,但是一定要记得进行校正。

下面几个方法各有优劣,可根据个人兴趣选择。

工具/原料

    ABBYY FineReader 11软件

    Office2003 自带组件Microsoft Office Document Imaging

    DoPDF软件和AJViewer

    慧眼图像文字识别软件

步骤/方法

    1

    首先介绍ABBYY FineReader 11这个软件。

    泰比(ABBYY)FineReader提供直观的文件扫描和转换成可编辑、可搜索的电子格式工具。泰比(ABBYY)FineReader可以识别和转换几乎所有打印的文档类型,包括书籍、志上的文章与复杂的布局、表格和电子表格、图片,甚至以准确的精度发传真。

    下载地址:网上随便一搜就很多例如:

    http://www.xp510.com/soft/Application/Processing/15768.html

    破解补丁:

    http://down.qiannao.com/space/file/l513980209/share/2011/11/2/ABBYY_FineReader_11_Professional_Edition_-514d-5e8f-5217-53f7-65e0-9650-5236-7834-89e3-7248-7834-89e3-6587-4ef6.rar/.page#

    破解方法:将下载的文件替换原安装文件即可。

    使用方法:

    1 安装后打开软件,选择任务,这里选择图片至microsoft word。

    2 打开需要识别的图片,软件会自动识别文字。

    3 当然该软件还自带图像简单处理功能,使得识别更加准确。

    4 识别后可以设置文字的样式、语言、字体、大小等。

    5 对于自动识别的文字可能出现偏差,所以必须手动。

    6 校验完毕后发送到word(可选其他格式)。

    2提取图片(扫描版PDF)中的文字

    3提取图片(扫描版PDF)中的文字

    4提取图片(扫描版PDF)中的文字

    5提取图片(扫描版PDF)中的文字

    6提取图片(扫描版PDF)中的文字

    7提取图片(扫描版PDF)中的文字

    8

    Office2003 自带组件Microsoft Office Document Imaging

    如果Office装的是精简版,那么在就没装这个组件,可以自己装一下或是下载完整版。装完后如下图。

    1 转换文件格式,将图片转化为tif格式。

    用ACDSee打开你的.jpg文件,单击界面上的“浏览器”按钮(或者双击当前图片都可以进入到浏览器界面),在打开的浏览器中,右键这个文件,在右键菜单中选择“工具/转换文件格式”;在转换文件格式对话框中,选择TIFF格式,两次下一步后,就开始转换,结果是将你当前的.jpg文件转换成了.tif文件。

    2 将图片转换为文字。

    选择:开始/所有程序/Microsoft Office/Microsoft Office工具/Microsoft Office Document Imaging,打开这个工具后,菜单:文件/打开,找到你保存的那个.tif文件,打开它。然后选择菜单:工具/使用OCR识别文本;梢等一会儿,继续菜单:工具/将文本发送到Word。这样,这幅图片就到了Word中成了可以编辑的文字内容了。因为OCR识别并非百分之百成功,所以有些位置可能需要你进行手动修改。

    9提取图片(扫描版PDF)中的文字

    10提取图片(扫描版PDF)中的文字

    11提取图片(扫描版PDF)中的文字

    12

    通过PDF->文字

    也就是先将图片转化为PDF,然后再提取文字。

    1 下载DoPDF将word转化为PDF,工具网上多得很,例如下载地址:

    http://www.duote.com/soft/1329.html

    2 下载AJViewer,地址:

    http://www.drv5.cn/sfinfo/7781.html

    3 打开AJViewer,选择【工具】-【文字识别】,如下图

    4 选择文字后,进行转化,转化效果如下。

    13提取图片(扫描版PDF)中的文字

    14提取图片(扫描版PDF)中的文字

    15

    慧眼图像文字识别软件

    可参考

    http://jingyan.baidu.com/article/ceb9fb1006ffed8cad2ba01d.html

    END

注意事项

    文字图像尽量平整,文字尽量清晰。

    进行识别后一定要进行校验。

温馨提示:经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
免责声明:本文转载来之互联网,不代表本网站的观点和立场。如果你觉得好欢迎分享此网址给你的朋友。
转载请注明出处:https://www.baikejingyan.net/af637VwNsAgdRAA.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年07月24日
下一篇 2023年07月24日
single-end

热门经验

single-end

相关经验

  • 怎样把图片转换成pdf格式

    怎样把图片转换成pdf格式,如果有客户给你寄来一些图片,要求在2天的时间里,将图片转成PDF格式文档Email给他,你会怎么去做呢?其实不难,首先你要保证图片足够清晰,然后利用识别率较高的JPG转换成PDF转换器来转换图片,最后直接导出成PDF文档格式即可。下面给大家演示一遍:...

    2023年08月11日
    0℃
  • 图片转换成PDF不清晰怎么办

    图片转换成PDF不清晰怎么办,在日常工作中,我们常遇到需要将文件转化为df,方便打印和保存,但是原始文件很清晰,转化之后发现模糊不堪,不能直视,怎么办呢,既然原始文件是清晰的,那么肯定是哪里出了问题,下面道来:...

    2023年08月11日
    0℃
  • 如何制作黑白二值双层PDF

    如何制作黑白二值双层PDF,双层PDF是指将标准资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,然后可以直接生成可以检索的PDF文件,这个PDF文件是双层的,上层是原始图像,下层是识别结果,这样可以100%保留原始版面效果,并且支持选择/复制/检索等功能,这样的PDF文件便于建立索引数据库,进行科学的管理。...

    2023年08月11日
    0℃
  • excel转换成pdf

    excel转换成pdf,  近来,在收拾材料时,发现有一些文件是PDF文档,这种格局的文件不便于修正,为了便利日后的工作需要,将PDF转换成Excel里边,或是excel转PDF。怎么用excel转换成df?事实上很简单,只要去网上下载一个PDF转换器就可以了,我给大家带来了俩个方法。...

    2023年08月11日
    0℃
  • 如何让扫描版pdf变得更小更清晰

    如何让扫描版pdf变得更小更清晰,如何优化扫描版df变得更小更清晰...

    2023年08月11日
    0℃

联系我们

在线咨询: QQ交谈

邮件:baikejingyan@gmail.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信