惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Simon Willison's Weblog
Simon Willison's Weblog
P
Privacy International News Feed
www.infosecurity-magazine.com
www.infosecurity-magazine.com
T
Troy Hunt's Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Attack and Defense Labs
Attack and Defense Labs
S
Secure Thoughts
V2EX - 技术
V2EX - 技术
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
O
OpenAI News
Cloudbric
Cloudbric
Google Online Security Blog
Google Online Security Blog
Schneier on Security
Schneier on Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Help Net Security
Help Net Security
Cyberwarzone
Cyberwarzone
G
GRAHAM CLULEY
L
Lohrmann on Cybersecurity
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Spread Privacy
Spread Privacy
NISL@THU
NISL@THU
N
News and Events Feed by Topic
T
Tenable Blog
S
Security @ Cisco Blogs
N
News and Events Feed by Topic
The Hacker News
The Hacker News
C
CXSECURITY Database RSS Feed - CXSecurity.com
宝玉的分享
宝玉的分享
月光博客
月光博客
酷 壳 – CoolShell
酷 壳 – CoolShell
美团技术团队
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google DeepMind News
Google DeepMind News
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Tailwind CSS Blog
V
Visual Studio Blog
P
Proofpoint News Feed
Webroot Blog
Webroot Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
博客园 - 三生石上(FineUI控件)
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
Jina AI
Jina AI
雷峰网
雷峰网
T
The Blog of Author Tim Ferriss
Hugging Face - Blog
Hugging Face - Blog
腾讯CDC
L
LangChain Blog
The Register - Security
The Register - Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
博客园 - 聂微东

蟹壳

如何逃顶 我的持仓和策略 腾讯阿里的伯克希尔哈撒韦时刻 A 股在新的起点 谁是主力 关于 AI 的阶段性思考 做多! 如果大模型跑在每一部手机里 未命名
开源大模型与闭源大模型哪个更好?
shellc · 2024-04-20 · via 蟹壳

开源大语言模型与闭源大语言模型,哪个更好?虽然有很多 benchmark,但是评价一个大语言模型的好坏并没有非常客观的标准,因为 LLM 要解决的目标问题被分解成了几十个,对应的评测数据集和方法也多达几十个,很难用一个算法来客观评价一个 LLM 的效果比另个好或者坏多少。不过也不是完全没有比较,使用更多人关注的 benckmark 和主观打分来评判,头部模型的排名也确实有个相对的共识。比如,GPT-4 系列,目前依然是公认的效果最优的模型。

那么开源模型和闭源模型,哪个更好呢?这个问题其实非常 LOW 。因为根本没办法从开源和闭源这个属性去推导影响模型质量的因素。抛出这个问题的人,要么是刻意去误导他想影响的人,要么就是瞎扯淡。

如果非得要个结论,可以说目前最好的模型是闭源的,但是模型的好坏和闭源还是开源无关。开源也有很多非常优秀的模型,闭源也有很多垃圾。

为什么有的模型要选择开源呢?

这里要稍微解释一下,模型的开源和软件的开源还不一样。模型的开源,大多是说开源了模型的权重,也就是训练结果,并不一定开放代码、数据集和网络架构、训练方法。简单来说,开源模型是提供了一个可以免费部署的 LLM。虽然,通过 fine-tune 也可以添加一点自己的数据改变一些它的行为,但是你可能没办法像开源软件一样从零 build 这个模型。另外,开源模型的商业使用可能是需要特殊授权的。

开源模型大多只是提供一个可以免费有限使用和评估的 LLM。这么做的目的是什么呢?怎么这么多赛博菩萨呢,这必须来分析开源模型背后的动机。

LLM 的火爆是因为 OpenAI 推出的 ChatGPT,从 OpenAI 的角度考虑,手握一个最优秀的模型,肯定是考虑使用这个新变量怎么颠覆现有商业格局的。所以它不会开源,未来有另一个模型超越了 OpenAI 最好的模型的话,这个模型也不会选择开源。

从开源模型的视角来看,比如 Meta 和 Google,如果放任 OpenAI 借助 GPT 系列吸引大量的用户和资金的话,这一定是很大的潜在威胁,谁能保证 OpenAI 不会在社交广告和搜索广告市场搞出颠覆性的事情呢?所以必须遏制 OpenAI 的可能性,推出开源模型,从商业竞争角度就成为一个搅局策略了。虽然开源模型不如 GPT 强,但是提供了一种免费选择,本来必须给 OpenAI 付钱的需求可能就被免费模型满足了,OpenAI 的商业收益就会被影响。更多开源模型的出现,会出现对 OpenAI 的围剿,而且 OpenAI 的领先优势并不是因为某种保密的技术,随着开源模型的优化,OpenAI 的领先会逐渐消失。

亚马逊投资 Anthropic 的逻辑也是一样的,不能让微软联合 OpenAI 在云计算市场搞出颠覆性的事情。

所以大模型的竞争不在于大模型本身,而是现有市场是否可能因为大模型被重塑。没有新技术出现对大型科技企业维持垄断地位是有利的,新的技术因素反而是一种威胁。

开源大模型就是一种主动制造的产能过剩和倾销,破坏领先者的商业利益。

国内的情况很难用这个逻辑来解释,FOMO 情绪可能更多,反正也没有人绝对领先,这又看起来是一个风口,不去抢一下是没道理的。至于开源不开源,其实也没那么重要,因为不开源也不能怎么样。

国内做大模型的企业,“有” 是更重要的。因为我们的甲方来源和决策逻辑是不同的,可控比效果更重要,你值得我相信比你技术更牛13更重要。所以,国内某些企业要花更多精力来操纵甲方心智。

回到开源模型和闭源模型哪个更好的问题。如果只从效果来说,目前最好的模型是闭源的。不是因为闭源所以好,而是因为好所以闭源。不要搞错了这个关系。但是评价模型好坏的标准太多了,某些模型的好只是一种主观上的认同。

经济性也是一个很重要的指标,如果在某类问题上,一个 70B 的模型能够达到 400B 模型效果的 70%。你说那个模型更好呢?为了拼“效果”,很多闭源模型的经济性可能很难有优势。随着时间的推移,开源模型肯定会缩小和闭源模型的差距,未来算力和模型都不会是稀缺的。

当下时点,模型开源依然有很大的社会意义,某个角度说,这也算是一种技术平权。对于开发者和小企业来说,应该永远欢迎新技术,因为只有新技术才会带来可能的创新。开源模型和成熟的基础设施可以让小团队快速交付新的解决方案。这就又回到了和之前互联网、 mobile 类似的情况,创新、风投和收购的良性循环才能给更多人带来机会。所以,个人和小团队应该欢迎 LLM 开源。