绿坝娘眼中的AV是什么样的?

时间: 2012-05-02 / 作者: / 分类:推荐文章 / 浏览次数:2,248 次 / 27 发表评论
图为绿坝娘的经典形象

图为绿坝娘的经典形象

是不是色情作品,一般人扫一眼心里就有数了。但对电脑来说,它们可不会自己分辨屏幕上那对男女是在谈情说爱,还是在宽衣解带。想让电脑知道哪些东西是不和谐的,还得靠程序员们的调教。不过,想教会电脑看AV并不是一件很容易的事情,因为机器没有七情六欲,没有感情,没有性冲动,唯一能接受的只有各种数据,程序员们要做的,就是让电脑识别色情作品特有的数据特征。

识色、辨形、听声

我们知道,每张图片里的任何一个点都包括亮度值、色相值、饱和度值,通过这三个值的大小的范围,电脑就能识别出“肉色”,进而猜测出图片里裸露的人体皮肤区域。 而那些“色图”相比于正常图片,最明显的特点就是画面像素中人体皮肤的颜色所占的比例比较大,整张图片比较“黄”,确切地说,研究者发现虽然不同肤色的主角在光线明暗不同环境下拍出来的皮肤颜色不尽相同,但是画面里人体皮肤的颜色总是在一定的范围内。另外,研究人员还发现暴露的区域图片一般纹理值比较小,颜色比较平滑,这也可以作为判断人体皮肤的依据之一。

电脑自动识别出图片里的人体皮肤区域。(图片来自原研究 )
电脑自动识别出图片里的人体皮肤区域。(图片来自原研究 )
2126fl计算肤色区域的几何关系。 (图片来自原研究 )

当电脑“看到了”图片上有类似于人体皮肤颜色的一些区域之后,需要进一步确定这些区域的来源,看看它们是没穿衣服的女主角,还是来源于正常物体。假设两块黄色区域分别是两条腿或两只胳膊,另外一块区域是人的身体,这些区域的长度值、宽度值必须符合人体的大小比例,之间的位置必须满足一定的几何关系,这些都可以依靠电脑的计算得出结果。如果这些区域之间大小和位置不像是人的身体,就可以排除掉色情图片的嫌疑了。

把肤色和人体构造比例这两招教给电脑是研究者最先想到的解决方案,也是应用得最多的图片自动扫黄方法。凭借这两个简单而有效的主意,美国爱荷华大学和加州伯克利大学的研究人员在1996年发表了一篇名为《找到裸露的身体》( Finding Naked People )的论文(有点标题党的嫌疑)。

后来,世界各国对于此领域情有独钟的研究人员又想出了各种各样提高识别AV图片准确率的方法。

例如斯坦福大学的研究者通过对图片进行“小波分析”(编者按:这只是一个数学方法的名称)可以把色情图片里的人体轮廓提取出来,由于同一个女主角可以被摄像机从不同的角度拍摄,研究者还对提取出的轮廓进行了平移、转动、伸缩的数学变换。接下来,比对被测试的画面提取出的数据和几百张真正色情图片数学变换提取出的信息,两者越接近就说明被测试的图片越可能是色情图片。这样就能让电脑来判定被测试的图片里,不和谐内容出现的概率大小。

94cpqa提取图片里的人体轮廓。(图片来自原研究 )

而中科院自动化研究所的研究人员提出的方法里,为了识别电影里是否有限制级片段,可以先分析一下电影里是否含有限制级的声音。他们收集了592段“声优”的声音片段,然后分析了这些声音信号的十几项参数。根据需要被测试的声音片段的各项参数与这些例子的接近程度,可以计算出一个声音片段是“限制级声音”的概率,如果概率足够大,就要检查声音对应的视频画面有没有问题了。

错杀与漏放

在此类研究中,各个研究论文里都提到了作者测试了大量的样本,收集了包括几百部、上千部高清无码的片子和正常的片子(看来这一类研究做起来还是蛮有意思的,工作之余还可以欣赏一下影片),有的研究识别准确率可以达到90%以上,不过电脑的人工智能还是经常有失手的时候,把正常的画面冤枉成AV画面,或者让真正的“咸湿图片”漏网,市面上此类的软件也都不免有“看走眼”的问题。

比如下面三张图片就是此类软件算法出错的例子,让无辜的图片受冤屈。图片(a)(b)因为整张图片颜色“太黄”了,很像人皮肤的颜色,被电脑误判;图片(c)大老爷们光着膀子的画面让电脑来区分是否属于色情就颇有难度。此外,动物和雕像的图片也容易被错划入不健康图片。

pew8i1让电脑迷惑的图片1(图片来自原研究 )

与此相反,以下三张应该被处理掉的图片却因为背景颜色纹理过多或者清晰度不够高而漏网

npmvf0让电脑迷惑的图片2(图片来自原研究 )

由此可见,要想给视频和图片来个靠谱的自动分级,还需要让电脑更聪明才行。

PS: 相信以后计算机会在这个领域取得新的进展,不过至少目前的常用方法,还是通过征募一些有牺牲精神的壮士,进行人工鉴定来实现的。

PPS:当绿坝娘擦枪走火…… 你懂的,有图有真相。

7k4j9s参考资料:

  1. Fleck, Margaret M., David A. Forsyth, and Chris Bregler (1996) “Finding Naked People,” 1996 European Conference on Computer Vision
  2.  Haiqiang Zuo, Ou Wu, Weiming Hu, Bo Xu;RECOGNITION OF BLUE MOVIES BY FUSION OF AUDIO AND VIDEO 3.Wang, J. and Wiederhold, G. and Firschein, O;System for Screening Objectionable Images Using Daubechies' Wavelets and Color Histograms

27个评论

  1. 亦丰魔幻
    2012/10/29 11:26:04

    说的很好支持。

  2. 猪八戒
    2012/07/02 11:42:59

    好文章,学习一下。

  3. 牙疼吃什么药
    2012/06/02 19:23:03

    让比尔盖茨在懂事会上发给与会者人手一份该帖命令仔细阅读后才讨论其他事宜的好帖

  4. 硝铵
    2012/05/31 18:26:19

    让人看完后就要往上顶往死里顶的好帖

  5. xzsfw
    2012/05/14 09:32:16

    站长,你好,你的网站不错,你能留个邮箱吗?我也是做个人博客,一个专注硬件的科技博客。

    • 付小贝
      2012/05/14 09:47:33

      邮箱是admin@diannao.it,另外,侧边栏右侧订阅关注栏有我的QQ,点击可以直接找到我

  6. lesamour
    2012/05/13 21:15:08

    这个挺有意思的

  7. 野草
    2012/05/05 23:15:15

    程序员的脑子真好,无限强大…

    • 付小贝
      2012/05/06 12:57:54

      其实这和程序员没什么太大的关系呢,都是搞模式识别的研究人员研究出来的方法,程序员只负责实现这种方法

  8. 小清新
    2012/05/04 18:41:09

    第一次听说,不太好使的吧,(*^__^*) 嘻嘻……

    • 付小贝
      2012/05/04 20:14:49

      图像识别方面研究还不充分,如果google来做这个项目,应该能做得比较好

      • 小猪
        2012/05/11 20:57:22

        小公司做出来,google就来收购,呵呵

  9. 毕业生
    2012/05/04 09:18:18

    现在还有绿坝这货!

    • 付小贝
      2012/05/04 20:21:12

      这货目前不安装在个人电脑上了,安装在国家级网关上

  10. 80博客
    2012/05/03 23:34:35

    还真是不太理解绿坝娘这个词,特意在维基上看了半天,终于明白了。

    • 付小贝
      2012/05/04 20:22:12

      她的形象还是很可爱的,但是内心就太丑恶了

  11. 飛天鼠
    2012/05/03 16:55:51

    还有人用?

    • 付小贝
      2012/05/04 20:25:39

      其实大家每天都在用,只是它现在没安装在大家的电脑上了,而是在国家级网关出口

  12. Jamiesoung
    2012/05/02 22:40:39

    现在还有绿坝呢?早该淘汰了。

  13. 五四小青年
    2012/05/02 21:42:36

    转载注明出处 😈

  14. Beautyleg
    2012/05/02 20:03:59

    真的有人用绿坝?我不信

    • 付小贝
      2012/05/03 09:00:28

      当年专门下载了一个来用,我把屏蔽网址库破解了,然后在里面随机找网站上

  15. rgblive.com
    2012/05/02 19:02:30

    哈哈,绿坝,火过了,就算了,该贪污的已经贪污了,落袋为安

    • 付小贝
      2012/05/03 08:58:35

      新一代的防火强正在研究中,最近北邮的方教授接了一个重大专项,专门研究新一代过滤技术

  16. 骷髅猫
    2012/05/02 15:31:48

    这个绿坝。。。。。。 ❓ ❓

    • 付小贝
      2012/05/02 16:20:55

      好可爱的绿坝娘,呵呵,这款产品由于性能太差,误杀率太高,群众反应强烈而被抛弃了,看来做图像识别技术需要进一步提高啊

  17. 花鼓子
    2012/05/02 09:47:48

    嘿嘿 有道理

发表评论

您的昵称 *

您的邮箱 * (绝对保密)

您的网站