cwnet 发表于 2011-5-8 10:02 只看TA 21楼 |
---|
这个问题其实非常的复杂,首先我猜测楼主应该碰到的是双栏排版的专业扫描版pdf。如果你把这个文件发给上面的任何一个人,他们都不可能把文本准确的识别出来。 唯一可以试试的思路是这样的: 1,用acrobat pro切割文件并转换为单栏,网络上有pdf2lrf的软件可以实现部分功能。 2,使用CAJViewer 7.0或pdf pro进行单栏识别。 3,进行大量而繁琐的校对工作。 如果你所要识别的是大量图文混排的扫描版书籍,这样就几乎无解了,除非用pdf2pic转换为图片格式,然后一张张处理后手动用OCR软件识别。 |
0 |
该用户匿名发帖 发表于 2011-5-8 12:45 只看TA 22楼 |
---|
如果只是文字的话我有好方法~ 1、使用foxitreader打开pdf,然后上面有一个文本选择器,先选择然后复制粘贴到word里 2、对多余的回车使用word的替换功能 然后基本就可以了,还有一些小错误需要修改 pdf转txt没有完美的,这点楼主可以放心 |
0 |
yingjie586 发表于 2011-5-9 00:17 只看TA 23楼 |
---|
用Adobe Acrobat 7.0 Professional 先转为WORD格式,然后在在搞成TXT格式的。 |
0 |
|
---|
octob3r 发表于 2011-5-9 00:34 只看TA 24楼 |
---|
汉王PDF Converter是一款快捷高效的PDF阅读转换软件,对可检索PDF能快速转换为可编辑的Word或TXT文档,不可检索的PDF文档能整页以图像方式快速转换到Word文档格式;整个操作过程简单,快速。 |
0 |
mcrock2001 发表于 2011-5-9 13:09 只看TA 26楼 |
---|
直接剪切复制,应该是最方便的解决办法了吧 |
0 |
|
---|