惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
Cloudbric
Cloudbric
T
The Blog of Author Tim Ferriss
美团技术团队
S
SegmentFault 最新的问题
罗磊的独立博客
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
IT之家
IT之家
P
Privacy & Cybersecurity Law Blog
N
News and Events Feed by Topic
爱范儿
爱范儿
T
Threatpost
The Cloudflare Blog
Spread Privacy
Spread Privacy
Latest news
Latest news
Last Week in AI
Last Week in AI
V
Vulnerabilities – Threatpost
Hugging Face - Blog
Hugging Face - Blog
T
Tor Project blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
Project Zero
Project Zero
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
Tenable Blog
酷 壳 – CoolShell
酷 壳 – CoolShell
博客园 - 司徒正美
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
T
The Exploit Database - CXSecurity.com
Security Latest
Security Latest
C
CERT Recently Published Vulnerability Notes
T
Threat Research - Cisco Blogs
Hacker News - Newest:
Hacker News - Newest: "LLM"
有赞技术团队
有赞技术团队
P
Proofpoint News Feed
Hacker News: Ask HN
Hacker News: Ask HN
L
Lohrmann on Cybersecurity
阮一峰的网络日志
阮一峰的网络日志
C
Cyber Attacks, Cyber Crime and Cyber Security
量子位
I
Intezer
C
Check Point Blog
Stack Overflow Blog
Stack Overflow Blog
博客园 - 【当耐特】
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
N
Netflix TechBlog - Medium
H
Heimdal Security Blog
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Blog — PlanetScale
Blog — PlanetScale
G
Google Developers Blog

博客园 - 灵感之源

.NET的前世今生与将来 技术人生的职场众生相 - 十多年的经验与心得 爆栈之旅 - 从接触到成为经理,从中国到澳洲 - 我这10年来的开发历程 我的软件开发生涯 (10年开发经验总结和爆栈人生) 我的回忆录-青年 爆栈三部曲:数据库开发大系技术栈 (300多技术点) Web前端开发大系概览 (前端开发技术栈) .NET技术大系概览 (迄今为止最全的.NET技术栈) 澳洲生活宝典 (兼我的2013总结) 我的回忆录 WaterfallTree(瀑布树) 详细技术分析系列 C#开源磁盘/内存缓存引擎 基于STSdb和fastJson的磁盘/内存缓存 怎样记住Integer的最大值(有趣的思维和搞笑的回答) STSdb,最强纯C#开源NoSQL和虚拟文件系统 4.0 RC2 支持C/S架构 在ASP.NET MVC 无需Web Form和Report Viewer 预览SSRS报表解决方案 STSdb,最强纯C#开源NoSQL和虚拟文件系统 C#写的NoSQL开源项目/系统(系列) 老调重弹:年龄大了,码农何去何从
某连锁酒店泄露数据的分析
灵感之源 · 2013-10-27 · via 博客园 - 灵感之源

某连锁酒店泄露数据的分析

2013-10-27 14:18  灵感之源  阅读(9987)  评论()    收藏  举报

声明

不提供任何下载,不提供任何指引,无需问我怎么得到,我不会回答。

前言

这个分析纯粹是我喜欢数据挖掘,周末闲来无事练一下手。

源文件

源文件是一个SQL Server数据库备份文件,从数据库“shifenzheng”完整备份,从服务器GHOSTSLC-6BBFCB备份,备份日期是2013/5/27 0:45:49  备份用户名叫anyi,备份数据库大小8030071808 (约7.5GB)。

基本信息

1. 字段

数据库只有一个表,叫cdsgus。里面有姓名、身份证号码、性别、地址、国家、手机号码、电子邮件等数据,其它的如卡号、固话、传真、公司、教育、兴趣等基本上是残缺甚至没有的,甚至部分人的身份证号码也是错乱的,估计导入的时候没有处理好。

而每个字段都设为长度2000的nvarchar,相当蛋痛,相信这不是原始设计,而单纯是泄露后自行快速导入的产物。

2. 记录

里面有20050144条记录(2005万)。

3. 姓

取姓名的第一个字符做姓(不考虑复姓),有4644个性,最多是王,其次是张、李、刘、陈,似乎和中国的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(数学里面的pi)。。。相信是乱写的。

10大姓里面已经占了821万用户。

4. 性别

男性比女性多一倍。

5. 年龄段

剔除那些无效或不靠谱年龄,80后是主力,70后次之。90后只有60后的一半,貌似不科学。。。

5. 省份

省份数据基于身份证号码,部分用户使用的不是身份证号号码,部分用户提供了的数据不合法,我都一并剔除了。江苏、山东和浙江用户最多,相信是某某连锁酒店在这些地区网点最多。

6. 更多

其实我还可以分析一下如手机提供商(移动/电信/联通等)、登记时间的分布等,甚至多维如不同省份里的不同年龄段里的不同手机用户之类,不过颈椎病发作,强忍疼痛写了这篇博客,就此打住了,休息去。

后言

互联网时代,每天产生的数据越来越多,数据安全问题日益严重,譬如之前的CSDN个人信息泄露,还有几个大游戏网站的数据泄露,当然还有诸多没有公开,只是在某些组织内部流转的。

我的建议,保护好自己的个人信息,不要在网上随意填写敏感数据,譬如身份证等,尽可能不同服务使用不同密码并经常修改。电话号码等,如果非得要填写,填写一个备用号码(专门用来填写申请/注册用,可随便丢弃,不怕别人骚扰)。