惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

WordPress大学
WordPress大学
The GitHub Blog
The GitHub Blog
F
Fortinet All Blogs
Cloudbric
Cloudbric
P
Palo Alto Networks Blog
T
Threatpost
T
Tor Project blog
T
Tenable Blog
AWS News Blog
AWS News Blog
Project Zero
Project Zero
L
LangChain Blog
Cyberwarzone
Cyberwarzone
Engineering at Meta
Engineering at Meta
雷峰网
雷峰网
C
CERT Recently Published Vulnerability Notes
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Security Latest
Security Latest
云风的 BLOG
云风的 BLOG
I
Intezer
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
P
Proofpoint News Feed
A
Arctic Wolf
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Google DeepMind News
Google DeepMind News
V
Vulnerabilities – Threatpost
C
Cybersecurity and Infrastructure Security Agency CISA
MongoDB | Blog
MongoDB | Blog
aimingoo的专栏
aimingoo的专栏
K
Kaspersky official blog
Jina AI
Jina AI
N
News | PayPal Newsroom
T
The Blog of Author Tim Ferriss
D
DataBreaches.Net
A
About on SuperTechFans
博客园 - 三生石上(FineUI控件)
博客园 - 【当耐特】
Hugging Face - Blog
Hugging Face - Blog
Recorded Future
Recorded Future
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
S
Secure Thoughts
TaoSecurity Blog
TaoSecurity Blog
P
Privacy & Cybersecurity Law Blog
P
Proofpoint News Feed
MyScale Blog
MyScale Blog
IT之家
IT之家
Forbes - Security
Forbes - Security
The Hacker News
The Hacker News
Last Week in AI
Last Week in AI
T
Threat Research - Cisco Blogs
Y
Y Combinator Blog

博客园 - 黄玮璘

使用adobe pdf去除PDF文档中的批量雷同文本 版本7以上IE以文件夹视图方式打开FTP的解决 IE浏览器被固定启动时访问某网页的处理方法 messages.exe病毒的清理 VMware的使用 win10如何将此电脑显示在桌面 Fast 迅捷网络 无线路由器FW323的功能设置 QQ微信的备份 HP P1008打印机如何打印特殊纸张 PowerPoint 打开文档发现.pptx中胡内容有问题 windows8 平板的使用心得 Auto CAD 2013的故障解决方法 三星I8750的使用 关于家庭上网计算机卡死的分析 关于access和outlook,以及word和Excel数据丢失的教训 无法访问windows安装服务的解决 华硕笔记本A8JR的系统重新装 xps文件的读取 XP如何识别AMD机上SATA的AHCI模式
使用word和pdf进行仿书编辑的经验
黄玮璘 · 2015-10-17 · via 博客园 - 黄玮璘

一、问题的提出:
    一本书扫描好,要将书中的图片转换为文字版的word文档。
二、问题的分析:
    1.文字的提取
    2.文字的编排
三、问题的解决
    1.如果用的是Adobe Acrobat 8 Professional
      那么,扫描好的pdf文档,选定某一页,
      文档→OCR文本识别→使用OCR识别文本
      弹出识别文本对话框,注意要选择好识别的主要语言
      在弹出的对话框中有个编辑按钮,点击“编辑”
      弹出一个新的对话框窗体,将OCR识别的主要语言选择为简体中文,
      然后确定后退出,在识别文本对话框中选择当前页面进行文本识别
      软件自动将该页的图片进行方位校正,然后生成文本附在图片上
      只要按下文本选择的图标,在图片上的文字上拉拽,就可选定文字。
      选定好文字复制到文本文件中,可以发现识别生成的文字、标点是
每行都隔断好的,但文字和标点有零星的地方是识别错误生成另外的字符,
需要人工校正,在文本文件中校正好后,复制到word文档中。
      如果用的是Adobe Acrobat XI Professional中文版
      那么,扫描好的pdf文档,右上的菜单导航里有个工具两字
      点击一下相关的工具菜单就整列出来,
      这列工具菜单里有个文本识别,点一下
      可以看到 在本文件中、在多个文件中这两个分支项目
      点在本文件中,可以弹出和Adobe Acrobat 8 Professional一样的
      识别文本窗口,默认设置是中文(简体),这就不用改了
      识别方式和Adobe Acrobat 8 Professional一样。
    2.word文档要调整成和原来扫描书籍中的格式,需要进行格式匹配,
比如标题的字体大小、字体类型,行间距、段落前后间距,页面纸张的大
小,一般要经过三页的调整才能定型好整体的格式。
    3.注意在word文档中,进行段落属性的设置,
      段落对话框中有个中文版式,记得更改为只打钩一个换行的第一个选项
      就是按中文习惯控制首尾字符,其他都不选。
    4.可以注意到其实印刷的书中每行的字数有个别与word文档编辑时每行
的字数对不上,要么多要么少,那么,就需要选定行进行文字属性的更改。
如果编辑时的文字,原来一行的文字符号变成两行,就选定好这些数量的文字
符号,右键选择字体,在弹出的字体对话框中选择高级选项卡,字符间距选择
紧缩,按照实际进行磅数的调整,一般是0.1磅就可以调整到位,个别要0.2磅
或者0.3磅,同理原来一行的文字符号吸纳了下一行的文字符号,则字符间距
选择加宽,把下一行的文字符号挤出这一行,一般也是0.1磅就可以调整到位,
个别要0.2磅或者0.3磅。
    5.利用pdf打印机打出不同页面尺寸的书籍pdf文档
      一般小本的书籍的尺寸在word文档的纸张大小是
         32开(13×18.4 厘米)  即宽度为13厘米,高度18.4厘米
      那么在编辑word文档的时候就要在页面设置里把纸张大小设为32开
      对应的页边距也要调整好,和原纸书籍一致,比如
      上:1.5厘米,下1.5厘米
      左:1.3厘米,右1.3厘米
      装订线:0厘米
      pdf打印机属性里是没有32开纸张类型,要自行添加设定
      Adobe PDF文档属性窗口中的Adobe PDF设置
      在Adobe PDF页面大小,点添加,自行定义增加纸张类型。