30 123
cwnet 发表于 2011-5-8 10:02   只看TA 21楼
这个问题其实非常的复杂,首先我猜测楼主应该碰到的是双栏排版的专业扫描版pdf。如果你把这个文件发给上面的任何一个人,他们都不可能把文本准确的识别出来。
唯一可以试试的思路是这样的:
1,用acrobat pro切割文件并转换为单栏,网络上有pdf2lrf的软件可以实现部分功能。
2,使用CAJViewer 7.0或pdf pro进行单栏识别。
3,进行大量而繁琐的校对工作。
如果你所要识别的是大量图文混排的扫描版书籍,这样就几乎无解了,除非用pdf2pic转换为图片格式,然后一张张处理后手动用OCR软件识别。
0
该用户匿名发帖 发表于 2011-5-8 12:45   只看TA 22楼
如果只是文字的话我有好方法~
1、使用foxitreader打开pdf,然后上面有一个文本选择器,先选择然后复制粘贴到word里
2、对多余的回车使用word的替换功能
然后基本就可以了,还有一些小错误需要修改
pdf转txt没有完美的,这点楼主可以放心
0
yingjie586 发表于 2011-5-9 00:17   只看TA 23楼
用Adobe Acrobat 7.0 Professional 先转为WORD格式,然后在在搞成TXT格式的。
0
octob3r 发表于 2011-5-9 00:34   只看TA 24楼
汉王PDF Converter是一款快捷高效的PDF阅读转换软件,对可检索PDF能快速转换为可编辑的Word或TXT文档,不可检索的PDF文档能整页以图像方式快速转换到Word文档格式;整个操作过程简单,快速。
0
yyasong 发表于 2011-5-9 11:35   只看TA 25楼
建议lz要么复制,粘贴到txt当中
扫描版的话,先ocr识别吧
电子版的话,直接复制粘贴就行
另存不是很好用的
0
mcrock2001 发表于 2011-5-9 13:09   只看TA 26楼
直接剪切复制,应该是最方便的解决办法了吧
0
z6653989 发表于 2011-5-14 14:24   只看TA 27楼
现在这类软件多的是,你直接百度找找呀,可定能找到合适的
0
该用户匿名发帖 发表于 2011-5-22 01:29   只看TA 28楼
其实即使能实现pdf到word也不一定是文字的,因为也可以是图片,如果纯粹是图片的话,貌似pdf也自带一个文字识别功能,忘了是哪个版本才有的,如果是文字,那么转为word之后处理起来就简单好多了。
0
tanalex 发表于 2011-5-22 01:42   只看TA 29楼
如果是扫描的图书,只能用pdf阅读器看了,别指望转换了
纯文字的PDF随便转
0
回复帖子 发新话题
 30 123