数据采集链接是鸭大的CAS验证中心中的验证码url
为了提高识别率,我还进行了一些图像处理,整个流程如下:
1、分割图片,原图长90px,刚好字符类似均匀分布(90/4)
2、把字符旁边的干扰线去掉,如果研究一下jsp生成验证码,就会发现背景、字符、干扰线一般在三个颜色区间,经实验发现干扰线极有可能类似这样:
setColor(this.getRandColor(random, 0, 15))
—— 启发就是把像素值<=15的点变成白色
3、图像灰度化和二值化,需要用到OpenCV(python中 import cv2)处理完之后如下图:

4、根据需要修改train.prototxt&solver.prototxt(我们用的是LeNet模型)
| 超参数 | 意义 |
|---|---|
| batch_size | 一次迭代图片 |
| base_lr | 学习率 |
| test_iter | 测试需要的迭代数 |
| test_interval | 迭代多少次后测试一次(一般迭代完全部图片就测试) |
| snapshot | 保存caffemodel |
