数据分析挑战:精细化的fuzz规则

  • A+
所属分类:WooYun-Zone

我们在国内做安全测试过程中,发现中国姓名排行TOP500(数据统计来自国家人口数据库)的作用是简单而又高效。WooYun: 人类的怠惰之一安全管理执行力度不够导致唱吧安全边界被突破(进入内网)

然而根据数理统计来说,上面的命中率其实并不高,于是我思考出了几个新的点:

1、针对海量已有的姓名库,进行统计分析(这个库的来源是已泄露的 QQ群数据库)。

2、每个QQ都有备注自己的真实名字(取2-4个中文字的昵称),对QQ号去重(14.5亿个昵称);

3、针对姓-名进行二分,姓氏为一个字段,名字为一个字段;

4、统计最多的姓氏,统计使用得最多的名字;

5、针对TOP10、TOP50的姓氏+名字做排列组合,生成我们需要的fuzz向量。

* 来自海量社工库的{真实姓名}字段挖掘;

* 来自海量社工库的常用username字段挖掘;

* 来自海量社工库的常用email-name字段挖掘;

中国人口最多的前十大姓

1.李姓-占全中国汉族人口的 7.94%=95,300,000人。

2.王姓 -占全中国汉族人口的 7.41%=88,900,000人。

3.张姓 -占全中国汉族人口的 7.07%=84,800,000人。

4.刘姓 -占全中国汉族人口的 5.38%=64,600,000人。

5.陈姓 -占全中国汉族人口的 4.53%=54,400,000人。

6.杨姓 -占全中国汉族人口的 3.08%=37,000,000人。

7.赵姓 -占全中国汉族人口的 2.29%=27,500,000人。

8.黄姓 -占全中国汉族人口的 2.23%=26,800,000人。

9.周姓 -占全中国汉族人口的 2.12%=25,400,000人。

10.吴姓-占全中国汉族人口的 2.05%=24,600,000人。

中国人口最多的前100名姓氏:前十名总人口约为5.5亿人。

01李 02王 03张 04刘 05陈 06杨 07赵 08黄 09周 10吴

11徐 12孙 13胡 14朱 15高 16林 17何 18郭 19马 20罗

21梁 22宋 23郑 24谢 25韩 26唐 27冯 28于 29董 30萧

31程 32曹 33袁 34邓 35许 36傅 37沈 38曾 39彭 40吕

41苏 42卢 43蒋 44蔡 45贾 46丁 47魏 48薛 49叶 50阎

pre_name = {'李','王','张'};

name = {'伟','芳','勇'};

姓:李  名:伟

姓:李  名:芳

姓:李  名:勇

姓:王  名:伟

姓:王  名:芳

姓:王  名:勇

姓:张  名:伟

姓:张  名:芳

姓:张  名:勇

利用分布式架构实现:

10台机器分布式统计分析,而且你的程序应该能平滑扩展到更多的机器,支持更大的数据量。

将上面的结果私信我,你将能够参与到 tangscan 的研发。

EXAMPLE:

数据分析挑战:精细化的fuzz规则

数据分析挑战:精细化的fuzz规则

数据分析挑战:精细化的fuzz规则

数据分析挑战:精细化的fuzz规则

  1. 1#

    随随意意 (233) | 2015-07-28 10:10

    猪哥大字典

  2. 2#

    浮萍 ((0)) | 2015-07-28 10:11

    取2-4个中文字的昵称

  3. 3#

    猪猪侠 | 2015-07-28 10:18

    然后面试问题来了:
    通过分布式的方式实现代码,处理QQ群数据,统计分析出结果。

  4. 4#

    小威 | 2015-07-28 10:22

    牛逼

  5. 5#

    JiuShao | 2015-07-28 10:31

    然后在利用这个http://zone.wooyun.org/content/21953来统计分析。

  6. 6#

    boooooom | 2015-07-28 10:34

    你将能够参与到 tangscan 的研发。

  7. 7#

    过客 | 2015-07-28 10:43

    @猪猪侠 偷懒的做法,搭一套 hadoop,平滑扩展不是问题,如果内存够用的话,写脚本用 Streaming 接口调 MapReduce 去跑是可以完成的。

  8. 8#

    Jn· (小学生一枚,不服你TM别打我.) | 2015-07-28 10:44

    数据分析挑战:精细化的fuzz规则我只发发不说话

  9. 9#

    猪猪侠 | 2015-07-28 10:50

    @过客 恩,我用mysql的两条SQL就得到结果了

  10. 10#

    prolog (http://121.41.160.237) | 2015-07-28 12:25

    猪哥大典

  11. 11#

    prolog (http://121.41.160.237) | 2015-07-28 12:41

    我觉得拿下这个站的数据就行了。。
    http://www.resgain.net/

    毕竟起名一般比较讲究音韵,三才五行

  12. 12#

    scanf (www.scanfsec.com 网络尖刀) | 2015-07-28 12:43

    超级大字典啊

  13. 13#

    纷纭 (:-)) | 2015-07-28 16:41

    大字典。。。。

  14. 14#

    missdiog | 2015-07-28 22:54

    @过客 更偷懒的做法,下载一个免费版splunk,安装dbconnect app,将sql server导入splunk,执行查询 index=xx |stats count by pre_name name 结果就出来了。

  15. 15#

    过客 | 2015-07-29 10:15

    @missdiog 免费版的 splunk 有数据 500M 限制

  16. 16#

    missdiog | 2015-07-29 11:22

    @过客 一个月可以超过3次

  17. 17#

    Mr.R | 2015-07-29 13:49

    你将能够参加tangscan的开发。。 猪哥你在tangscan ??! @猪猪侠

  18. 18#

    XTT | 2015-08-20 11:14

    大数据时代的数据分析专家,赞!@猪猪侠

  19. 19#

    抽烟的2B青年 (听自己的歌,看别人的戏。) | 2015-08-20 22:39

    默默地看着大神们发威就好了。

  20. 20#

    黑暗游侠 | 2015-08-20 23:22

    @猪猪侠 然而一个验证码这些fuzz就没有用了

  21. 21#

    猪猪侠 | 2015-08-21 01:02

    @黑暗游侠 90%以上的验证码废物一般的存在。

  22. 22#

    枪花 | 2015-08-21 01:18

    思维空间不再一个维度啊 高强大

  23. 23#

    野驴~ (生活不是只有诗与远方,还有眼前与苟且。) | 2015-08-21 06:54

    @猪猪侠 期待知识库出paper。数据库分析字典数据。