资讯专栏INFORMATION COLUMN

用“活着的”CNN进行验证码识别

wangbinke / 1591人阅读

摘要:但是在现今的验证码识别中,当要识别的图片中的文字变成手写体互相重叠,这种切分法就难以排上用场。下图是的训练万多步的结果的训练截图总结本文采用了活着的进行验证码识别,可以免去大量进行人工标注的步骤,对工作效率有不小的提升。

1 验证码

验证码( CAPTCHA )是一种区分用户是计算机或人的公共全自动程序。在 CAPTCHA 测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答 CAPTCHA 的问题,所以回答出问题的用户就可以被认为是人类。

2 CNN 验证码识别

传统的方法是通过两个不相关的步骤来进行文字识别:1)将图片中的文字的位置进行定位,然后通过“小框”来切分,将图片中的文字剪切下来 2)再进行识别。但是在现今的验证码识别中,当要识别的图片中的文字变成手写体互相重叠,这种“切分”法就难以排上用场。因此卷积神经网络(CNN)就被用来识别这些无从下手的手写体。这种CNN 是通过一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成来对图像识别。CNN 训练模型需要大量的人工标注的图片来训练,但是本文方法就是自主产生随机的字符并产生相应的图片来在运行过程中调整参数。
本文关注具有 4 个字符的的验证码图片。每个字符在输出层被表现为 62 个神经元。我们可以假设一个映射函数

即:

将前 62 个神经元分配给序列中的第一个字符,第二批 62 个神经元分配给序列中的第二个字符。因此,对于字符xi

所对应的神经元的索引为

输出层一共有 4*62=128 个。如果第一个预测字符的索引为 c0=52,因此可以反推预测的字符为

3 实现步骤 1 验证码生成 1 验证码中的字符

</>复制代码

  1. number = ["0", "1", "2", "3", "4", "5", "6", "7", "8", "9"]
  2. ALPHABET = ["A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "T", "U",
  3. "V", "W", "X", "Y", "Z"]
  4. alphabet = ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u",
  5. "v", "w", "x", "y", "z"]
  6. gen_char_set = number + ALPHABET # 用于生成验证码的数据集
2 生成验证码的字符

</>复制代码

  1. # char_set=number + alphabet + ALPHABET,
  2. char_set=gen_char_set,
  3. # char_set=number,
  4. captcha_size=4):
  5. """
  6. 生成随机字符串,4位
  7. :param char_set:
  8. :param captcha_size:
  9. :return:
  10. """
  11. captcha_text = []
  12. for i in range(captcha_size):
  13. c = random.choice(char_set)
  14. captcha_text.append(c)
  15. return captcha_text
3 按照字符生成对应的验证码

</>复制代码

  1. def gen_captcha_text_and_image():
  2. """
  3. 生成字符对应的验证码
  4. :return:
  5. """
  6. image = ImageCaptcha()
  7. captcha_text = random_captcha_text()
  8. captcha_text = "".join(captcha_text)
  9. captcha = image.generate(captcha_text)
  10. captcha_image = Image.open(captcha)
  11. captcha_image = np.array(captcha_image)
  12. return captcha_text, captcha_image
4 训练

</>复制代码

  1. def crack_captcha_cnn(w_alpha=0.01, b_alpha=0.1):
  2. """1
  3. 定义CNN
  4. cnn在图像大小是2的倍数时性能最高, 如果你用的图像大小不是2的倍数,可以在图像边缘补无用像素。
  5. np.pad(image,((2,3),(2,2)), "constant", constant_values=(255,)) # 在图像上补2行,下补3行,左补2行,右补2行
  6. """
  7. x = tf.reshape(X, shape=[-1, IMAGE_HEIGHT, IMAGE_WIDTH, 1])
  8. # w_c1_alpha = np.sqrt(2.0/(IMAGE_HEIGHT*IMAGE_WIDTH)) #
  9. # w_c2_alpha = np.sqrt(2.0/(3*3*32))
  10. # w_c3_alpha = np.sqrt(2.0/(3*3*64))
  11. # w_d1_alpha = np.sqrt(2.0/(8*32*64))
  12. # out_alpha = np.sqrt(2.0/1024)
  13. # 3 conv layer
  14. w_c1 = tf.Variable(w_alpha * tf.random_normal([3, 3, 1, 32]))
  15. b_c1 = tf.Variable(b_alpha * tf.random_normal([32]))
  16. conv1 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(x, w_c1, strides=[1, 1, 1, 1], padding="SAME"), b_c1))
  17. conv1 = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")
  18. conv1 = tf.nn.dropout(conv1, keep_prob)
  19. w_c2 = tf.Variable(w_alpha * tf.random_normal([3, 3, 32, 64]))
  20. b_c2 = tf.Variable(b_alpha * tf.random_normal([64]))
  21. conv2 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv1, w_c2, strides=[1, 1, 1, 1], padding="SAME"), b_c2))
  22. conv2 = tf.nn.max_pool(conv2, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")
  23. conv2 = tf.nn.dropout(conv2, keep_prob)
  24. w_c3 = tf.Variable(w_alpha * tf.random_normal([3, 3, 64, 64]))
  25. b_c3 = tf.Variable(b_alpha * tf.random_normal([64]))
  26. conv3 = tf.nn.relu(tf.nn.bias_add(tf.nn.conv2d(conv2, w_c3, strides=[1, 1, 1, 1], padding="SAME"), b_c3))
  27. conv3 = tf.nn.max_pool(conv3, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")
  28. conv3 = tf.nn.dropout(conv3, keep_prob)
  29. # Fully connected layer
  30. w_d = tf.Variable(w_alpha * tf.random_normal([8 * 20 * 64, 1024]))
  31. b_d = tf.Variable(b_alpha * tf.random_normal([1024]))
  32. dense = tf.reshape(conv3, [-1, w_d.get_shape().as_list()[0]])
  33. dense = tf.nn.relu(tf.add(tf.matmul(dense, w_d), b_d))
  34. dense = tf.nn.dropout(dense, keep_prob)
  35. w_out = tf.Variable(w_alpha * tf.random_normal([1024, MAX_CAPTCHA * CHAR_SET_LEN]))
  36. b_out = tf.Variable(b_alpha * tf.random_normal([MAX_CAPTCHA * CHAR_SET_LEN]))
  37. out = tf.add(tf.matmul(dense, w_out), b_out) # 36*4
  38. # out = tf.reshape(out, (CHAR_SET_LEN, MAX_CAPTCHA)) # 重新变成4,36的形状
  39. # out = tf.nn.softmax(out)
  40. return out

由于时间和设备的限制,我在验证码生成字符串中删去了英文字母只剩下了数字进行训练。要不然可以算到地老天荒也还是3%的准确率。下图是gen_char_set = number + ALPHABET的训练1万多步的结果的训练截图

5 总结

本文采用了“活着的 CNN”进行验证码识别,可以免去大量进行人工标注的步骤,对工作效率有不小的提升。


</>复制代码

  1. 文 / JoeCDC
    数学爱好者

    编 / 荧声

本文已由作者授权发布,版权属于创宇前端。欢迎注明出处转载本文。本文链接:https://knownsec-fed.com/2018...

想要订阅更多来自知道创宇开发一线的分享,请搜索关注我们的微信公众号:创宇前端(KnownsecFED)。欢迎留言讨论,我们会尽可能回复。

欢迎点赞、收藏、留言评论、转发分享和打赏支持我们。打赏将被完全转交给文章作者。

感谢您的阅读。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/19842.html

相关文章

发表评论

0条评论

wangbinke

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<