惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - SKILL·NULL

如何为GIT设置全局勾子,为每次提交追加信息 - SKILL·NULL 如何在Mac上调整外星人鼠标AW720M的灯光颜色 Karabiner-Elements最常用配置 IndexedDB封装 echarts获取坐标上的点距离顶部底部高度 Let`s Encrypt 生成免费自动续签 HTTPS 证书 H5滚动截取长图 ReactNative常见问题及处理 根据.nvmrc自动切换项目所需node版本 Command PhaseScriptExecution failed with a nonzero exit code echarts双Y轴,实现均分为包含刻度0的指定段数,同时对齐刻度 env(safe-area-inset-bottom) 兼容写法 缩放实现0.5px 禁止 IOS 橡皮筋效果 JS 拦截浏览器返回 海康威视DS-IPC-E42H-IWPT监控画面竖线处理 Echarts 5 动态按需引入图表 React 18 自定义 Hook 获取 useState 最新值 处理报错 ResizeObserver loop completed with undelivered notifications.
一文了解大模型、小模型与各类神经网络的关系
SKILL·NULL · 2026-03-11 · via 博客园 - SKILL·NULL

一、基础:什么是神经网络

神经网络是模仿生物神经元的一类数学模型:
输入 → 若干“层”的加权计算和非线性变换 → 输出。
单层、多层、不同连接方式,就形成了不同的“网络结构”。

  • 核心要素:层数、每层神经元数量、连接方式、激活函数、训练目标(损失函数 + 优化器)。

二、神经网络的几种主要“形态”

可以按结构/用途粗分为几类,它们都是“神经网络”的不同实现方式:

全连接网络 (MLP) 层与层之间全连接 分类、回归、通用函数逼近 卷积神经网络 (CNN) 卷积层 + 池化 图像、局部模式、视觉任务 循环神经网络 (RNN/LSTM) 带“记忆”的时序结构 文本、序列、早期语言模型 Transformer 自注意力 (Self-Attention) 文本、多模态、当前主流大模型底座 图神经网络 (GNN) 在图上做消息传递 图结构数据、分子、社交网络
类型典型结构主要用途

关系可以理解为:

  • 神经网络 = 总称(包含上面所有)。
  • CNN / RNN / Transformer / GNN = 不同的“架构”,都是神经网络的一种。
  • 大模型 / 小模型 = 按规模和能力对模型的划分,不特指某一种结构,但今天说“大模型”通常指基于 Transformer 的大规模语言模型。

三、小模型 vs 大模型:按“规模”划分

这里的“大/小”主要指:参数量、数据量、算力,以及由此带来的能力差异。

  • 小模型
    • 参数量:几百万到几亿(如 1M–500M)。
    • 特点:训练和推理成本低、易部署、可跑在手机/边缘设备。
    • 常见:BERT-base、小型 LSTM、小型 CNN、蒸馏后的学生模型等。
  • 大模型(常指 LLM)
    • 参数量:数十亿到数万亿(如 7B、70B、175B+)。
    • 特点:强泛化、少样本/零样本、多任务,但需要大算力、大内存。
    • 常见:GPT 系列、LLaMA、ChatGLM、Qwen 等,底层多为 Transformer。

关系可以概括为:

  • 小模型 和 大模型 都是“神经网络”,只是规模不同。
  • 大模型往往在同一种架构(如 Transformer)上“放大”:更多层、更宽、更多数据、更长训练。

四、一张关系图(概念层级)

  • 第一层:神经网络 = 所有上述结构的统称。
  • 第二层:MLP、CNN、RNN、Transformer、GNN = 不同“架构”。
  • 第三层:同一架构下,按参数量/用途再分为 小模型 和 大模型;大模型当前多以 Transformer 为主。

五、和“你项目”的关系(QUOTE_LLM)

结合你仓库名 QUOTE_LLM:

  • 做 LLM 一般选 Transformer 架构(或在其上的改进)。
  • 训练出来的可能是 7B、13B 等“大模型”,也可能通过蒸馏、剪枝得到 小模型 便于部署。
  • 训练/推理代码里用的“模型”,就是上述“神经网络”中的一种实例——大或小、何种架构,取决于你的配置与规模选择。

六、一句话总结

  • 神经网络是总称;CNN、RNN、Transformer、GNN 等是不同架构;大模型 / 小模型是按规模与能力的划分,当前大模型多以 Transformer 为基础,小模型可以是同架构的缩小版或其它结构(如小型 BERT、小型 LSTM)。
  • 先选“用什么结构的神经网络”,再选“要做成多大规模(小模型还是大模型)”,就能把三者的关系理清。