发布网友 发布时间:2022-04-25 05:05
共3个回答
热心网友 时间:2023-10-28 07:30
楼主的问题要使用OCR软件解决。
第一,文字识别(即楼主所说文本提取)只能一页一页进行,批量识别没法控制准确率,可能为后续排版增加难度;
第二,版面分析也应逐页进行,尤其是必须逐页进行倾斜样正。存在版面错误也十分正常,稍做处理,不影响文字识别的进行;
第三,100张图片的文字识别工作量并不算大,大约1小时以内完全可以完成;
第四,画面清晰识别后乱码多,主要原因是版面问题,最常见的是倾斜校正不到位。处理乱码效率比较高的解决办法是批量搜索替换;
第五,识别后的文字应该以段为单位,而不是以行为单位,尤其是不能以栏为单位。之所以出现楼主所说问题,原因是版面分析和识别时设置有问题。对于分栏页,版面分析时应该准确地分析出来,否则后续处理就麻烦了。还有关于软件设置,一般应设置为自动取消软回车(非自然段换行),以及文本后续添加模式(不是一页一个文件)等等,注意琢磨并充分发挥软件的功能,识别效果会大大提高。
上述功能目前流行的识别软件都可以实现。祝顺利!
热心网友 时间:2023-10-28 07:31
用批量的文字识别软件就可以了 批量图片转文字识别 OCR 还支持PDF拆图,大神手笔
热心网友 时间:2023-10-28 07:31
看看这个 快速识别好几百张,精准方便,软件有下载的