2018年1月23日星期二

如何把一本书扫描入库

如何把一本书扫描入库？

见标题。

先谈方法

切书
打印机托盘入纸自动扫描成pdf
导出图片
ocr识别文字
校对

再谈下成本

打印社扫描的成本是一面5毛
我扫的书比较多，不舍得花钱，让小助手用公司打印机扫描的
- 人力成本一天大概2小时（不经常卡纸的话，含导出pdf并转图片的时间）
- 识别成本：使用服务器，一页识别大概在13秒钟，定时批量处理即可

扫描时的注意事项

分辨率不低于300dpi，我用的是400dpi
黑白
双面拼接

OCR识别方法

使用tesseract工具识别，命令行用法如下：

#!/bin/bash
# linux操作系统下运行哦

page='page_1.jpg' # 页码
page_name='page_1' # 输出文件名称，后辍固定为txt
tesseract ${page} ${page_name} -l chi_sim -c chop_enable=0 -c tessedit_write_images=1

如果不是技术人员，可以联系我(liangtaohy@gmail.com)。我可以帮提取文字，但要是需要校对的话，那要给小助理工时费了，哈哈。

没有评论:

订阅：博文评论 (Atom)