惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

罗磊的独立博客
Cisco Talos Blog
Cisco Talos Blog
C
Check Point Blog
博客园_首页
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Martin Fowler
Martin Fowler
Recorded Future
Recorded Future
S
Security @ Cisco Blogs
L
LINUX DO - 最新话题
博客园 - 司徒正美
P
Privacy International News Feed
G
Google Developers Blog
I
Intezer
Hacker News - Newest:
Hacker News - Newest: "LLM"
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
C
Cybersecurity and Infrastructure Security Agency CISA
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Scott Helme
Scott Helme
K
Kaspersky official blog
I
InfoQ
Y
Y Combinator Blog
T
The Blog of Author Tim Ferriss
Webroot Blog
Webroot Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
大猫的无限游戏
大猫的无限游戏
D
Docker
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
W
WeLiveSecurity
Microsoft Azure Blog
Microsoft Azure Blog
Spread Privacy
Spread Privacy
量子位
H
Hacker News: Front Page
Simon Willison's Weblog
Simon Willison's Weblog
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
SecWiki News
SecWiki News
S
Security Affairs
Latest news
Latest news
人人都是产品经理
人人都是产品经理
C
CERT Recently Published Vulnerability Notes
S
Security Archives - TechRepublic
V
Visual Studio Blog
T
Troy Hunt's Blog
S
Secure Thoughts
F
Fortinet All Blogs
V
V2EX
The Register - Security
The Register - Security
J
Java Code Geeks
MongoDB | Blog
MongoDB | Blog
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO

博客园 - 望穿秋水

EF表查询列表只查询其中几列的写法 Vue 设置为history模式之后,刷新页面报404错误的解决办法 前端页面部署之后刷新页面之后出现HTTP 错误 404.0 - Not Found错误问题解决 大数据开发规范 IIS中SSL证书过期更新的问题 .NET安装运行环境及IIS网站部署相关问题汇总 SSAS问题汇总 [MSSQL]开启/关闭Ad Hoc Distributed Queries组件 sqlserver安装之后,SSMS远程连接连接不上的问题解决:请验证实例名称是否正确并且 SQL Server 已配置为允许远程连接 数据治理包括哪些方面 VUE hash路由和history路由的区别 WinForm的EXE破解(基于IL修改)【转】 C# 反编译破解软件方法【转】 vue项目启动报错 spawn cmd ENOENT errno TortoiseGit提交每次都需要输入账号密码的解决办法 MLlib算法简介 VS2019 Git连接源代码报错问题:cannot spawn askpass: No such file or directory could not read Username for ‘https://github.com‘: terminal prompts disabled 永久关闭Windows10自动更新 [转]人生就是不断试错的经历,只有见过最糟的经历,才能学会享受美好
spark mllib算法思想总结[转]
望穿秋水 · 2021-02-03 · via 博客园 - 望穿秋水

Spark MLlib全部算法总结(2.1.0版)

说明:总结算法为Spark2.1.0中Mllib中源码算法,参照网络链接及书籍整理而成。

算法按计算过程分两大类:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。

监督学习:指给定算法的一个数据集,其中包含了“正确答案”。算法的目的就是给出更多的“正确答案”。

无监督学习:指给定算法的一个数据集,要求算法找出数据的类型结构,即“分门别类”。按基于数据类型不同又分为两个包:ml包和mllib包。

mllib包内算法是基于Spark的核心RDD(弹性分布式数据集)类型数据的。

ml包内算法是基于更为抽象数据类型DataFrame(数据流)的。

ml、mllib包内按功能类型分又分为多种类型,包括分类(classification)、聚类(clustering)、特征(feature)、优化(optimi/optimization)、推荐(recommendation)、回归(regression)、评估(evaluation)等多种类型。

注:Spark从2.0版本开始,不再向mllib包中添加新的算法,并逐渐将mllib包中算法向ml包中过渡,预计3.0版本将会移除mllib包,统一ml包内基于DataFrame类型的算法。

注:分类与回归的区别在于:分类是结果值离散型的,少数的;而回归结果值是连续的,多数的。根据结果值需求来决定用哪个算法。所以把分类与回归放一块分析。

1.1分类(classification)

1.2回归(regression)

1.3聚类(clustering)

1.4评估(evaluation)

1.5特征(feature)

1.6关联规则(fpm)

1.7优化(optimization)

1.8推荐(recommendation)

1.9统计(stat)

1.10树(tree)

2 ml包内算法

说明:名为ml包内算法,实则并非ml包与mllib包区别十分明显,部分甚至多数ml包内算法已经在mllib包算法内提到并叙述。ml包内算法仅为对算法提供一个基于DataFrame类型的补充说明,已解释过的算法不再赘述。

2.1组件(ml)

2.2分类(classification)

2.3优化(optim)

2.4回归(regression)

2.5调优(tuning)