您现在的位置:首页 > >

如何把PDF和CAJ文件转换成Word文档

发布时间:

如何把 PDF 和 CAJ 文件转换成 Word 文档

网上的学术资料多数是以 CAJ、PDF 等文件格式提供的,其中的文本不 能被直接编辑。网上提供了许多处理这种情况的软件,但是它们不是效 率低,就是只能提取其中部分文本。本文所述利用微软提供的 OCR 识 别技术从 CAJ、PDF 等文件中提取全部文本的方法,简便快捷,效率很 高。 从不同格式的文件中提取文本前需要做好以下准备工作,安装 CAJViewer5.5 浏 览 器 软 件 和 acrobat 5 专 业 版 浏 览 器 软 件 安 装 Office2003, 并完全安装 Office 工具 Microsoft Office Document Imaging, 然后在打印机里面会增加 Microsoft Office Document Image Writer 打印 机。 Microsoft Office Document Image 可以非常准确的全文件识别转化 中文、英文、表格。

下面是具体步骤:

一、CAJ 文件的识别 (一)首先,从网上下载 CAJ 格式的资料文件保存到本地硬盘上。 (二)然后,启动 CAJViewer 浏览器程序,并在该程序中打开刚才保存 的 CAJ 格式的文件。浏览文件到最后一页后,不要关闭 CAJ 浏览器程 序。 (三)在 CAJ 浏览器程序窗口中,选择“文件”→“打印” ,并选择打 印机为 Microsoft Office Document Image Writer 打印机, 勾选打印到文件 选项和确定打印页数。

(四)保存打印文件(*.prn)到适当位置。等待打印完成后,Microsoft Office Document Image 自动打开刚才保存的打印文件。 (五)在 Microsoft Office Document Image 窗口中,选择“页面”菜单 中的“选择所有页面”菜单项,然后选择“工具”菜单中的“使用 OCR 识别文本”提取文本。 (六)选择“工具”下的 “将文本发送到 word” ,最后将把整个 CAJ 文件识别输出到 word 文件中。

二、PDF 文件的识别 (一)以文本形式保存的 PDF 文件,用 acrobat 5 专业版,识别整个文 件。直接打开从网上下载的 PDF 格式文件另存为 RTF 文件,或者选择 工具栏上的文字选择按钮,然后选择文字区域,然后复制到 Word 中即 可。 (二) 以图片形式保存的 PDF 文件, PDF 文件打印到 Microsoft Office 将 Document Image Writer 打印机,选择打印形成的文件的保存位置,然后 会自动形成一个 MDI 文件, 并且自动用 Microsoft Office Document Image 打开此文件, 然后在 Microsoft Office Document Im?鄄 age 中选择 “工具” 菜单中的“使用 OCR 识别文本” ,识别完成后,在选择“工具”下的, “将文本发送到 word” ,最后将把整个 PDF 文件识别输出到 word 文件 中。 (三) 加密的 PDF 文件先下载解密软件, 解密后在参照上述步骤 1),2) 进 行。 (四)繁体 PDF 文件用上述步骤 2)的方法识别到 word 后,用 word 中

的“工具”→“语言”→“中文繁简转换”



热文推荐
猜你喜欢
友情链接: