惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Help Net Security
Help Net Security
G
Google Developers Blog
雷峰网
雷峰网
WordPress大学
WordPress大学
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Engineering at Meta
Engineering at Meta
Security Latest
Security Latest
T
Threat Research - Cisco Blogs
AWS News Blog
AWS News Blog
F
Full Disclosure
C
Cybersecurity and Infrastructure Security Agency CISA
T
The Exploit Database - CXSecurity.com
J
Java Code Geeks
U
Unit 42
C
Cyber Attacks, Cyber Crime and Cyber Security
V
V2EX
C
Cisco Blogs
博客园 - 司徒正美
Project Zero
Project Zero
L
LINUX DO - 热门话题
阮一峰的网络日志
阮一峰的网络日志
Blog — PlanetScale
Blog — PlanetScale
Scott Helme
Scott Helme
A
About on SuperTechFans
Hugging Face - Blog
Hugging Face - Blog
S
Securelist
小众软件
小众软件
aimingoo的专栏
aimingoo的专栏
S
Schneier on Security
G
GRAHAM CLULEY
酷 壳 – CoolShell
酷 壳 – CoolShell
Cyberwarzone
Cyberwarzone
MongoDB | Blog
MongoDB | Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - 叶小钗
T
Threatpost
Recorded Future
Recorded Future
C
CXSECURITY Database RSS Feed - CXSecurity.com
宝玉的分享
宝玉的分享
N
News and Events Feed by Topic
人人都是产品经理
人人都是产品经理
The Register - Security
The Register - Security
S
Security Archives - TechRepublic
博客园 - Franky
N
News | PayPal Newsroom
Simon Willison's Weblog
Simon Willison's Weblog
S
SegmentFault 最新的问题
W
WeLiveSecurity
A
Arctic Wolf
B
Blog

博客园 - 叶伟民

大模型时代的PDF解析工具 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第10章 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第9章 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第8章 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第7章 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第6章 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第4章 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第3章 如何取书名(2) - 书店研究心得 使用Jasmine和karma对传统js进行单元测试 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第5章 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第2章 走正确的路 - IT业没有护城河 - 机器翻译新锐Deepl 《.NET内存管理宝典 》(Pro .NET Memory Management) 阅读指南 - 第1章 Women forum两周年有感 现代化编程模式(1)-快 转型 - 在海归群的最大收获以及写给子孙后代的。 《 .NET并发编程实战》一书中的节流为什么不翻译成限流 《.NET内存管理宝典》 售后服务系列文(2) - WinDbg命令.cmdtree
RAG开发大模型应用掉进过的坑(1)——从讨论国内外大模型应用发展而起
叶伟民 · 2024-03-27 · via 博客园 - 叶伟民

2024-03-27 14:59  叶伟民  阅读(224)  评论()    收藏  举报

昨天在某个生成式AI微信群里面有一个讨论:为什么最近国外讨论的是suno,国内火的却是上下文?

我是这么看的:因为国内外的经济基础、文化等各种因素不同,同一时期在大模型这条赛道上讨论的具体东西不同是很正常的。但是有一点是始终不变的:就是无论如何不同,了解国外讨论的东西,取其精华、去其糟粕、为我所用。

另外去年是生成式AI爆发元年,包括我自己在内,很多人开发过很多大模型应用。一年下来,很多人发现,仅仅靠LangChain官网和各种国内信息源,是没有办法开发好一个大模型应用的,例如:

  1. 按块划分文本(chunk)会遇到的问题以及如何解决,LangChain官网没有讲,各种国内信息源也讲得不详细。
  2. 按句划分文本时,对中文数据经常划分出错,LangChain官网没有讲,各种国内信息源在这方面的资料也很少。
  3. 使用LangChain官网的各种PDF Reader,经常产生各种错误,LangChain官网没有讲,各种国内信息源在这方面的资料也很少。这点我在上一篇文章讨论过,这篇文章就作为《RAG开发大模型应用掉进过的坑》系列文章的第0篇吧(程序员从0开始)。
  4. 等等还有很多问题这里就不罗列了。

于是我萌生了一种想法:把这些(RAG)开发大模型应用掉进过的坑以及解决方案写成一系列文章,抛砖引玉,供大家共同思考。

在写这一系列文章之前,我想分享一点:为什么我能从这些坑里面爬出来,是因为我经常了解和借鉴国外在开发大模型应用方面的经验。当然,国外并没有直接可以用于解决中文RAG应用的解决方案,但是通过了解国外在开发大模型应用方面的经验,我想出了不少思路。

回到本文一开始的话题,国内外讨论的东西是不一样,但是我们可以了解国外的经验来想出解决国内问题的思路。以我翻译的《基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理》为例,虽然里面的内容与国内的关注点不一样,但确实给我提供了不少解决开发国内大模型应用的解题思路。换句话说吧,这本书每一版都占据过Amazon畅销书第一名,作者Denis也有四万多个粉丝,不管里面的内容与我们的认知有多么不符,但是肯定有值得我们借鉴之处。

好了,说了这么多,接下来开始《RAG开发大模型应用掉进过的坑》系列文章的第2篇:按块划分文本(chunk)时掉进过的坑。