用Adobe Acrobat 7.0 Professional 和,尚书7号OCR。把扫描版的PDF转换为TXT格式输出来怎么是乱码呢
原因有几方面:
1。扫描版的pdf分辨率太低,或扫描质量差。
2。jpeg的分辨率低,一般300dpi才能较好识别。此项可在acrobat生成图像文件时参数调整。质量设为高。
3。识别语言不对路。尚书七号-文件-系统设置,调整语言。目前国产这类免费软件一般只支持中文,中英文,或繁体。你识别其他语言,最好找能识别多种语言的OCR软件。如泰比finereader10软件。
4。识别页面倾斜,或横竖排版,表格横放,都影响识别。尚书中要相应调整。
5。数学化学符号非线性的也是乱码或白板。
6。另外,识别正确率不可能100%,加上以上因素时,看上去就会整个乱码。
换一换其他OCR,如紫光th-ocr,readiris corporate12(加东亚语言包)再试试。