老谈鉴黄，新一代“鉴黄师”是如何养成的？

Forest10 发布于2019-06-26 18:16 / 1038人阅读

摘要：第一代鉴黄师正如大家所想的那样，通过一双肉眼鉴别淫秽图片和视频。老司机带着新司机在这个阶段，传统鉴黄师从完成鉴别工作转变到教会机器如何识别的更准确。

在互联网高速发展的今天，直播平台，内容社区，视频网站等UGC/PGC平台蓬勃发展，如雨后春笋般出现。但巨大的安全隐患也接踵而至，内容审核成为企业最关键的一道防火墙。企业招聘大量的内容审核专员来应对包括色情、暴力、犯罪等多个方面的不良内容。其中鉴黄师可能是最神秘也最令人遐想的岗位了。

说起鉴黄师，大家会心一笑，看看黄图还有高收入，简直没天理。但是在从业人员看来，它真的那么令人向往吗？阿里聚安全小编专访了负责阿里内容安全（阿里绿网）的资深赛车手——来自阿里安全多媒体算法团队的唐秋。常年战斗在一线的他，是如何学习高超的驾驶技巧？

从鉴黄师到“鉴黄师”
唐秋告诉小编，鉴黄师发展到今天，它的身份已然有着不同的变化。
第一代鉴黄师正如大家所想的那样，通过一双肉眼鉴别淫秽图片和视频。但这份工作并不轻松，他们每天需要完成海量的图片视频鉴别。因此长时间从事这份工作，不仅对身体是一种摧残。观看太多的色情作品，甚至扭曲的色情作品，还会对心理造成极大的创伤，影响正常的性生活和婚姻关系。

图片来源于网络

在人工鉴黄成本上升和互联网日益猖獗的色情信息的环境下，第二代“鉴黄师”应运而生。
第二代“鉴黄师”从人工鉴黄演变到机器智能鉴黄，通过人工智能、深度学习和大数据样本等技术，千万张正常图片与色情图片的训练模型，最终生成一个智能鉴黄模型。

智能鉴黄模型生成步骤

上面这张图的步骤里，制定标准与标注数据的难度比训练模型更大一些。因为现实世界是复杂的，不同的人对同一张图片的认识往往不一样。

打个比方，女性泳装图片，如果以沙滩为背景如何判定，换成室内环境呢？儿童的写真该如何判断？

为了制定标准，他们了承受很大的压力，一旦没处理好，会引起舆论的压力和监管部门的处罚。阿里内容安全团队的运营与算法同学一起讨论修订了数次才有了初版，并且在后续打标过程中根据遇到的问题进行了几次增补，标准才稳定下来。

阿里内容安全的智能鉴黄技术使用非常简单，输入一张图片或视频，算法模型返回一个0-100之间的分值。这个分值非线性地标示图片含色情内容的概率：得分99及以上的图片几乎可以肯定是色情图，可以机器自动处理；得分50-99的需要人工审核；得分50以下的认为是正常图，因为50分及以上包含了99%以上的色情图片。

阿里内容安全的图片识别结果

在获取最初的样本过程中，唐秋告诉小编一个数据：近2000网站，6000+万疑似色情图片，1300+万的高质量标注。他说这是智能鉴黄最重要的一块基石。

“老司机”带着“新司机”
在这个阶段，传统鉴黄师从完成鉴别工作转变到教会机器如何识别的更准确。他们给得分在50-99的图片视频标注“正常”、“性感”、“色情”的分类，机器根据标注去学习，让它们变的越来越聪明。

那么有一个问题：会出现教会徒弟，饿死师傅的情况吗？
“教会徒弟后，是让师傅更加轻松。而且，师傅和徒弟可以互相学习，共同进步”。唐秋告诉阿里聚安全小编，智能审核+人工审核是目前国内互联网公司主流的内容审核方法。

智能审核为主
智能识别每天可以处理几亿张图片，不仅可以节省企业大量的人力成本，并且大大提高识别的准确率。还能提供音视频、文字、直播等形式的内容检测，覆盖鉴黄、暴恐、涉政、广告等多种内容风险。每一条视频/信息的发布，都将经过机器和人工等多道审核。

以上智能审核的功能可以访问阿里聚安全提供的内容安全服务免费测试体验（http://jaq.alibaba.com/green），企业可使用户通过低成本的一次接入，与OSS、ECS等云产品无缝对接。它支撑着阿里系淘宝、支付宝等核心业务的内容安全。目前微博、熊猫TV、支付宝都在使用阿里内容安全功能，覆盖社交、直播、金融等多个行业。

人工审核为辅
虽然在后期机器识别越来越精准，可以胜任绝大部分的审核工作，但是相比人工审核还是有一定的局限性。因为机器还很难模拟出正常的用户体验，很难理解内容背后的深意，很难作出准确的“人的判断”。并且直播和视频行业盛行的今天，机器检测其内容的难度较大，还是需要人工来辅助审核完成。

但随着智能技术的更新，识别效率的提高，人工审核的占比将越来越低，人工智能或许可以彻底将传统鉴黄师以及内容审核专员解放出来，最终传统鉴黄师将会往第三代发展。

GPU云服务器云服务器老谈鉴黄鉴黄师养成 cdn是如何实现的

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/19641.html

从人工智能鉴黄模型，尝试TensorRT优化

摘要：没有显卡也没有关系，可以看看我前面发布的两篇文章谷歌云计算平台，免费又好用上安装本文采用的深度学习模型是雅虎开源的深度学习色情图片检测模型，这里的代表，该项目基于框架。你还可以读利用人工智能检测色情图片谷歌云计算平台，免费又好用上安装随着互联网的快速发展，越来越多的图片和视频出现在网络，特别是UCG产品，激发人们上传图片和视频的热情，比如微信每天上传的图片就高达10亿多张。每个人都可以上传，...

LinkedME2016 2019-05-23 17:29 评论0 收藏0
新一代智能视频云发展现状分析：五大要素成关键

摘要：远程医疗这一概念被提出后，已经被广泛应用。但是，如何提高视频传输性能，如何确保家庭基层医疗机构和户外应急的远程医疗快速接入，是当前的远程医疗业务系统面临的主要挑战。编者按：近日，Gartner最新发布了一份《Five Key Essentials for the New Generation of Intelligent Video Cloud》白皮书报告，报告中针对各行业在视频应用...

levy9527 2019-06-26 18:30 评论0 收藏0
常青：小程序音视频能力再升级

摘要：采访了腾讯云音视频业务终端研发团队负责人常青，针对小程序音视频能力技术升级场景支持政策审核以及未来演进趋势进行了详细的探讨。 LiveVideoStack采访了腾讯云音视频业务终端研发团队负责人常青，针对小程序音视频能力技术升级、场景支持、政策审核以及未来演进趋势进行了详细的探讨。文 / 常青策划 / LiveVideoStack LiveVideoStack：常青你好，能否向Liv...

jerryloveemily 2019-06-21 16:19 评论0 收藏0