惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

爱范儿
爱范儿
博客园_首页
W
WeLiveSecurity
S
Secure Thoughts
S
Security @ Cisco Blogs
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Hugging Face - Blog
Hugging Face - Blog
www.infosecurity-magazine.com
www.infosecurity-magazine.com
H
Hacker News: Front Page
Project Zero
Project Zero
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
U
Unit 42
N
News and Events Feed by Topic
N
News and Events Feed by Topic
Hacker News - Newest:
Hacker News - Newest: "LLM"
Forbes - Security
Forbes - Security
T
Tor Project blog
I
Intezer
B
Blog
F
Full Disclosure
Security Archives - TechRepublic
Security Archives - TechRepublic
F
Fortinet All Blogs
Schneier on Security
Schneier on Security
T
Threat Research - Cisco Blogs
AI
AI
Google DeepMind News
Google DeepMind News
L
LINUX DO - 最新话题
Cloudbric
Cloudbric
L
Lohrmann on Cybersecurity
WordPress大学
WordPress大学
博客园 - 聂微东
雷峰网
雷峰网
P
Privacy International News Feed
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
PCI Perspectives
PCI Perspectives
Y
Y Combinator Blog
Spread Privacy
Spread Privacy
Simon Willison's Weblog
Simon Willison's Weblog
罗磊的独立博客
Vercel News
Vercel News
A
Arctic Wolf
The Register - Security
The Register - Security
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Microsoft Azure Blog
Microsoft Azure Blog
H
Heimdal Security Blog
Know Your Adversary
Know Your Adversary
P
Proofpoint News Feed
C
Cybersecurity and Infrastructure Security Agency CISA
P
Proofpoint News Feed

筑语日志 - 产品想法

被百度收录 - 筑语日志 内容长度限制 - 筑语日志 讨论区形态的一点想法 - 筑语日志 几个图片社区 - 筑语日志 ChatGPT试用于垂类社区网站的设计、开发和运营 - 筑语日志
机器学习的2个基本疑问 - 筑语日志
mgt · 2024-12-14 · via 筑语日志 - 产品想法

如何判断一件事是可以通过机器学习做到的?如何训练调参炼丹的基本素养?
b1.png

1.如何定义一件事情是可以通过机器学习做到的?

比如html筛选版权问题
比如特定领域+高分辨率+高准确率的图片风格归类问题

2.调参炼丹

数据与分布:数学发现的魅力
重复试验:数据积累、发现、测试验证……的基本素养
对话:指点的价值,寻找方向感
论文:扩大视野,寻找不足
视频:工程经验的分享,生活的乐趣 
套壳vs自主:模仿、理解基本概念、自主演化 

在google上搜这个问题,看到一篇文章,点进去被封面图吸引到了。这篇文章讲了机器学习的来源、概念解释、以及工程化中可能遇到的挑战。对来源来说,一张图表达了从数据到影响力的转化;概念解释则通过两个典型的算法:Word2Vec的Skip-gram和CBOW,机器学习的是向量之间的某种函数映射,是中间的向量化的临时结果;在工程化的过程中,期望通用的机器学习方案是不现实的,那会趋于平庸,而工程的工作量更多集中在前面的划分问题域和构造特征集;最后,单纯的构造数据-> 模型并不困难,实现一个可以根据调用和使用者逐步优化和演进的SAAS则会变得很困难

当我第一次看到这个图的时候,就被吸引了,因为这么简单的6个小框框就诠释出了数据分析,机器学习,以及知识和信息的本质,那就是:

数据经过处理和加工,变成了信息。
信息之间产生了联系,形成了知识。
通过现有知识,发现了一些知识之间的新关系,于是形成了洞见。
把一系列洞见串联起来,形成了智慧。
向外传播智慧,形成了影响力。

要知道,现在大家所使用的一切数据分析技术,无论是大数据还是机器学习,都是在实现这里面的某一个环节,而最终的环节,就是机器学习最终的目标,我们不是希望机器学习学到知识,这是一个手段,我们希望计算机可以具有智慧,而智慧又是无法量化的,似乎目前只能从大量的知识中去学习,至少人类就是这样过来的。
b7.png
不要指望可以用较低的成本瞬间获得机器学习带来的福利。当我们利用它的时候就需要明白它的合适的场景和合理的使用方法
b8.png
复杂的地方在于划分问题域,大了来说,分类和回归占据半壁江山,但是对于分类来说,如何设定特定领域下的可扩展的类别,是一门独立的复杂学科。

其次构造特征集的时候需要考虑的不单单是相关的数据采集,同时还有对应的特征关联分布等分析来确定合适的算法和效果,这样可以在前期达到事半功倍的效果。

机器学习模型更大的工作是在前半截而非训练的过程,训练过程通常等价于一般业务系统启动服务的过程,而前边的定义和划分则应该被归入机器学习story编码的一个部分。

b9.png

实现一个SAAS不会太难,实现一个可以根据调用和使用者逐步优化和演进的SAAS则会变得很困难

因此在构建SAAS的时候不但需要基于可以弹性扩展的系统实现对应的服务,同时需要基于不同的库和服务来作出不一样的实现。另外在线上需要有足够多的反馈机制,用来作为核心的校验和持续训练环节。

文章与图片来源:https://www.baifachuan.com/posts/da70b21c.html