惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - cleardo

大模型的原理学习(二) 我的测试开发十年之路 命令行安装ipa包 ios设备管理 tomcat远程部署 移动线路的测试方案设计 iOS开发过程中的内存监控 iOS添加图片 iOS交叉编译 iOS日志获取 使用flask开发web应用 Python隔离环境的搭建 Ipa打包并安装到iphone 单元测试的痛点 Graphviz入门 - cleardo Iphone常用工具 iOS越狱后必装软件 构建iOS交叉编译环境 pycurl库使用详解
大模型的原理学习(一)
cleardo · 2026-01-31 · via 博客园 - cleardo

我将开始学习大模型的实现原理

先上一张图:

大模型整体概览

这个是完整的架构,比较复杂,所以我将从0开始学习,会分为多篇来记录我的学习过程。

早期理论萌芽

很早以前,人们就发现世界可以用函数来描述规则(Functions describe the world),例如 :牛顿发现万有引力,验证出了万有引力公式。

但那时候,有一个隐含共识:逻辑、推理、意识、判断这些精神世界的东西无法用数学来描述。

● 生物学基础:人类大脑包含约860亿个神经元,通过100万亿个突触连接形成复杂网络,是认知与表达能力的物质基础。
● 循环结构(1901年):圣地亚哥·拉蒙·卡哈尔观察到小脑皮质中的循环半圆结构,提出了兴奋环路概念,打破了神经系统仅为潜馈结构的认知。
● 马尔可夫链(1906年):安德烈·马尔可夫提出马尔可夫链,为随机过程和序列数据提供了数学框架,成为统计语言模型(SLM)的基础。
● M-P神经元模型(1943年):沃伦·麦卡洛克与沃尔特·皮茨提出了包含循环连接的人工神经网络模型。
○ 麦克洛克坚持认为 “精神世界中的神秘工作及精神的失常,不过来源于大脑神经元的正常或失常反应而已,而这是纯机械式的”即精神世界也可以用函数来表示。
○ 沃伦·麦卡洛克与沃尔特·皮茨运用医学知识:“大脑中的每一个神经元细胞,只有当外部刺激超过最小阈值时,才被激发,否则就处于静默状态“,按照逻辑门电路的思想提出了 MP 人工神经网络模型,

人体神经网络

局限性:因为是模拟电门逻辑,输出是固定的,要么 0 要么 1,这是一个硬性判断,描述的是一个确定性的事件,不能用来表达“不确定性”。
● 图灵测试(1950年):艾伦·图灵提出评估机器智能的标准,确立了自然语言理解与生成在智能评估中的核心地位。

人工智能学科的确立与神经网络初步发展

人工智能(AI)的诞生

● 术语定义(1955年):约翰·麦卡锡为保证学科中立性,正式命名该领域为“Artificial Intelligence”。
● 达特茅斯会议(1956年):麦卡锡、香农、明斯基等学者探讨了机器模拟智能的可能性,标志着人工智能作为独立学科正式诞生。
● 符号主义: 只要把世界表示成一堆符号,再写清楚规则,机器就能“思考”。 受到 MP 模型的启发,符号主义认为,把智能用一个数学模型表达出来,然后将这个数学模型中的符号全部求解出来就行了。符号主义在早期占据了很长一段时间统治力。

线性函数

● 联结主义:在求解数学模型时,有的数据不论如何拟合,总是无法求出完美的结果,索性摆烂了,“猜+简化”。
线性:

线性函数2

如果数据本身不是线性可分的,怎么调 W,bW,bW,b 都没用。

以线性函数为例:将一个函数外面再套一层函数(激活函数),得到了一个新的线性函数,相当于给线性函数做了平移、缩放操作

权重激活函数

如果换成非线性的 f(x)作为激活函数:

常用的非线性激活函数

权重激活函数2

权重激活函数3

拟合过程

不断套激活函数的过程就作为了神经网络中的隐藏层

计算流程

下一篇,我们将学习拟合和损失函数。