惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

博客园 - Franky
N
Netflix TechBlog - Medium
Google Online Security Blog
Google Online Security Blog
月光博客
月光博客
量子位
酷 壳 – CoolShell
酷 壳 – CoolShell
V
V2EX
腾讯CDC
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
M
MIT News - Artificial intelligence
Vercel News
Vercel News
The GitHub Blog
The GitHub Blog
Hugging Face - Blog
Hugging Face - Blog
博客园 - 【当耐特】
Apple Machine Learning Research
Apple Machine Learning Research
aimingoo的专栏
aimingoo的专栏
博客园 - 三生石上(FineUI控件)
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
MongoDB | Blog
MongoDB | Blog
H
Help Net Security
The Cloudflare Blog
Blog — PlanetScale
Blog — PlanetScale
F
Full Disclosure
G
Google Developers Blog
罗磊的独立博客
Jina AI
Jina AI
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
Y
Y Combinator Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
J
Java Code Geeks
A
About on SuperTechFans
IT之家
IT之家
大猫的无限游戏
大猫的无限游戏
S
SegmentFault 最新的问题
有赞技术团队
有赞技术团队
GbyAI
GbyAI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
The Register - Security
The Register - Security
U
Unit 42
D
Docker
Martin Fowler
Martin Fowler
L
LINUX DO - 热门话题
NISL@THU
NISL@THU
阮一峰的网络日志
阮一峰的网络日志
C
Cybersecurity and Infrastructure Security Agency CISA
博客园_首页
Google DeepMind News
Google DeepMind News

博客园 - BearOcean

LOG.ZS.0001.基于Freetype的游戏字体渲染优化思路 const 和指针 C++ 下啥时候用struct, 啥时候用class C++ 和 Java 中的变参 解决站点关键数据,状态数据,无须持久化数据的一些思路 BS程序代码与安全与基本攻击/防御模式 Struts 实现的I18N Ant 阅读笔记 进度,效率,与个人事务管理 Personal Task 1.0 MySql与Java的时间类型 解决Thread 的关闭问题和参数传递时想到的办法. Command 模式 .Net标准控件与自定义控件(2) ToolTipButton 内网聊天工具FreeChat 2.0 FreeChat 2.0 ...大改 模型和架构 局域网聊天工具FreeChat 1.0 开发日志 内网聊天工具FreeChat Beta 为Socket写的附加方法 .Net 事件
数据挖掘概述
BearOcean · 2006-07-04 · via 博客园 - BearOcean

最近有机会接触到一些数据挖掘的东西.
个人感觉,这项技术一定会有较大的发展前景.
所以借助这篇文章,阐述一下自己对数据挖掘(Data Mining)的看法.
并一步一步地解释数据挖掘技术的概念.

(一)数据挖掘的产生

数据存储技术的发展与应用:

任何技术都必须与应用相结合.数据挖掘的应用是建立在数据存储的基础上的.简单地来说.
在过去的10年里.Internet的广泛应用以及企业的信息管理集成导致了数据存储技术的迅速发展

企业们已经习惯于将过去的纸面工作遗植到计算机上进行.数据库的使用为这项工作提供了基础.
也涌现了一大批优秀的数据库管理系统,类似于Oracle , Sqlserver. DB2 等等..但总的来说,这些数据库
都提供了同一个功能:数据存储.

人们可以自行构件程序来使用和管理这些数据.最初的应用聚集在检索和更新2项上.举个简单的例子:
当我们在cnblogs上提交一份随笔时.文章的实际内容将被运行于服务器端的Web应用程序提交到一个
数据库(一张表)里.
有人希望浏览它时,Web应用程序又会从数据库中将它检索出来.并通过网络将内容发送到浏览者的浏览器上.
我们也可以删除该随笔,数据库会负责将该文章的记录删除掉(或者是更新一个IsDeleted字段)

出现的问题:海量数据和数据坟墓:
海量数据是一个很形象的词汇.
一个大型超市(我确信它应用了销售管理系统)每天能产生多少销售记录?
回答是:上万条.
一年能产生多少数据?
回答是:海量数据.

但是,数据集是否能称作数据坟墓并非以数据的多寡来界定的.
当数据集多到失去意义的时候,便堕落成数据坟墓了.

以大型超市的销售记录为例,检索任何一条销售记录都失去了意义.
这些庞大的销售记录老实地呆在数据库里,10年没人去问候.也不会有任何人有精力去一条条地检索.
单纯地储存他们没有任何好处...也没有为企业带来任何的价值.
因为它实在是太巨大了.

统计.挖掘的雏形:
有人会说:我们面对大量销售记录的时候.当然不会去一条一条地检索,而是形成一张统计报表,提交到销售
经理的办公桌上.销售经理可以从上面查看今年的销售记录,每个季度的销售记录,每月平均销售记录等等.
这些,利用数据库是可以很容易办到的.当然有很多企业也确实这样做了.

大量的企业表示:我们的管理系统能够做到这样,已经足够了,我们很满意.
但是.在竞争如此激烈的经济世界中,有人提出:
储存在数据库中的数据,是否只能提供这些?它们是否蕴涵了更多的知识和规律,我们并没有成功的
发现.
我们的销售经理在决定下一年的销售策略时,往往会研究最近几年的销售额统计.而策略的决定仅仅依靠这些
仍然显得太主观.于是有一种感觉渐渐形成:我们没有充分利用我们以有的数据.

数据挖掘:
是否觉得数据挖掘仍然显得很空乏
一个具体的例子可以说明问题:
在数据挖掘中,有一个非常典型的应用,被称为购物篮分析.
在决定超市下一年货物架摆放方法时,销售经理总是主观地把面包和牛奶放在一块.但货物实际上
是非常多的.除了主观地决定策略,销售经理还希望他们的系统能够通过已有的销售记录给出一些更直观的
提示,甚至是直接形成一张货架摆放图.依据是:顾客通常更习惯于把什么样的货物放在构物车里.

所以,新的系统需要自动地从数据中挖掘出规律和对决策制定有帮助的信息.

这样,数据挖掘便产生了.
经历了:
数据存储技术--->统计--->数据挖掘与决策支持
产生的原动力是企业对"通过历史数据制定决策"的期望.
数据挖掘的定义最后也很容易的归结为:从海量数据中提取有价信息和知识".