惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

酷 壳 – CoolShell
酷 壳 – CoolShell
H
Hacker News: Front Page
P
Palo Alto Networks Blog
T
ThreatConnect
Apple Machine Learning Research
Apple Machine Learning Research
博客园_首页
T
True Tiger Recordings
P
Privacy & Cybersecurity Law Blog
B
Blog
IT之家
IT之家
Last Week in AI
Last Week in AI
F
Full Disclosure
Hacker News: Ask HN
Hacker News: Ask HN
C
Comments on: Blog
Microsoft Azure Blog
Microsoft Azure Blog
C
Cybersecurity and Infrastructure Security Agency CISA
Microsoft Security Blog
Microsoft Security Blog
博客园 - 【当耐特】
N
News and Events Feed by Topic
NISL@THU
NISL@THU
腾讯CDC
雷峰网
雷峰网
Security Latest
Security Latest
李成银的技术随笔
M
Microsoft Research Blog - Microsoft Research
L
LangChain Blog
L
Lohrmann on Cybersecurity
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
C
Check Point Blog
Y
Y Combinator Blog
Recent Announcements
Recent Announcements
博客园 - Franky
N
News | PayPal Newsroom
V
V2EX
A
About on SuperTechFans
The Register - Security
The Register - Security
月光博客
月光博客
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Google Online Security Blog
Google Online Security Blog
MyScale Blog
MyScale Blog
Cisco Talos Blog
Cisco Talos Blog
Vercel News
Vercel News
WordPress大学
WordPress大学
C
Cyber Attacks, Cyber Crime and Cyber Security
The Hacker News
The Hacker News
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
爱范儿
爱范儿
A
Arctic Wolf
L
LINUX DO - 最新话题
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More

博客园 - ExplorerMan

大模型sft微调参数优化2 大模型RAG实战,从被骂不靠谱到成为部门MVP,这是我的踩坑全记录【转】 推荐 Prompt 模板(大幅提升 JSON 质量) 渐进式SFT内化 [推荐]双塔模型(介绍) Agno - 轻量级Python多智能体系统框架 Open WebUI:打造友好且强大的自托管 AI 平台 【gradio】使用Gradio快速开发前端界面:基础知识 大模型RAG的上下文压缩与过滤 文本切割方案进化概览:从“机械切割”到“智能解构” SemanticChunker 语义相似拆分 基于LangChain 实现 Advanced RAG-后检索优化(上)-Reranker 基于LangChain 实现 Advanced RAG-后检索优化(下)-上下文压缩与过滤 多Agent协作入门:基于A2A协议的Agent通信(中) 0基础也能看懂!从0到1手把手教你本地部署大模型Ollama 什么是 AutoModel 大模型基础应用框架(ReACT\SFT\RAG)技术创新及零售业务落地应用 - ExplorerMan - 博客园 多模态Embedding模型:从文本到多模态的全面选型指南! rag 查询检索轮换
ollama部署与open-webui
ExplorerMan · 2025-10-11 · via 博客园 - ExplorerMan

1.ollama简介

Ollama 是一款开源工具,允许用户在本地便捷地运行多种大型开源模型,如 DeepSeek、ChatGLM、Llama 等。通过 Docker Compose,我们可以快速部署 Ollama 服务,并结合其他工具(如 Dify 或 Open-WebUI)构建强大的 AI 应用。

2.版本获取

2.1 官网

https://ollama.com/

2.2 github

https://github.com/ollama/ollama

2.3 镜像获取

https://hub.docker.com/r/ollama/ollama/tags

2.4 支持的模型

https://ollama.com/search

3.docker-compose部署

version: '3.9'
services:
  ollama1:
    image: 172.16.4.17:8090/bigmodel/ollama:0.9.6
    container_name: ollama-1
    restart: always
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia          
              device_ids: ['0']
              capabilities: [gpu]
    volumes:
      - ./data:/root/.ollama
      - ./scripts:/scripts
    environment:
      # GPU 配置(双保险)
      - CUDA_VISIBLE_DEVICES=0
      
      # 网络配置
      - OLLAMA_HOST=0.0.0.0:11434
      - OLLAMA_ORIGINS=*
      
      
  • docker-compose部署参数说明

参数说明

version: '3.9'
services:
  ollama1:
    # 镜像配置
    image: 172.16.4.17:8090/bigmodel/ollama:0.9.6  # 私有仓库中的Ollama镜像
    container_name: ollama-1  # 容器名称标识
    restart: always  

4.下载模型

4.1 模型选择

  • 根据服务器的硬件情况选择自己的模型,如deepseek,由于我的GPU是NVIDIA 2060,显存6G,所以需要选择下列模型,才能使用

4.2 下载模型命令

# 最佳性能平衡(适合编程任务)
ollama pull deepseek-coder:1.3b

# 最佳中文能力(适合对话/创作)
ollama pull deepseek-rlhf:7b-q4_0 --num-gpu-layers 18

4.3 下载deepseek-coder:1.3b模型

root@ded76a4b1f7c:/# ollama pull deepseek-coder:1.3b
pulling manifest 
pulling d040cc185215: 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████▏ 776 MB                         
pulling a3a0e9449cb6: 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████▏  13 KB                         
pulling 8893e08fa9f9: 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████▏   59 B                         
pulling 8972a96b8ff1: 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████▏  297 B                         
pulling d55c9eb1669a: 100% ▕██████████████████████████████████████████████████████████████████████████████████████████████████████▏  483 B                         
verifying sha256 digest 
writing manifest 
success 

4.4 模型命令汇总

  • 模型管理命令

  • 交互命令

  • API服务命令

  • 示例:

  • 系统维护命令

  • 常见问题处理

5.模型调用测试

# 深度测试模型能力
ollama run deepseek-coder:1.3b "用Python实现快速排序,添加中文注释"

ollama run deepseek-rlhf:7b-q4_0 "写一篇关于人工智能伦理的短文(300字)"

# 显存监控(另开终端)
watch -n 1 nvidia-smi

6.创建模型别名

6.1 创建模型别名

# 1. 下载原始模型
ollama pull deepseek-coder:1.3b

# 2. 创建别名my-deepseek:1.3b
ollama cp deepseek-coder:1.3b my-deepseek:1.3b

# 3. 使用自定义名称
ollama run my-deepseek:1.3b

6.2 删除别名的影响

1.删除别名,不影响原始模型的加载和调用

2.删除原始模型名称,不影响别名模型的加载和调用

3.只有当​​所有引用都被删除​​后,权重文件才会在运行 ollama prune 时被删除

4.关键理解要点

  • ​​权重文件是共享的​​,原始模型和别名都指向同一个物理权重文件
  • ​​元数据是独立的​​,每个"名称"都有自己的配置文件
  • ​​删除操作很克制​​,ollama rm 只删除元数据,不删除被引用的权重文件
  • ​​引用计数机制​​,Ollama 内部跟踪权重文件的引用计数:

6.3 安全删除模型

# 删除原始模型(不影响别名)
ollama rm deepseek-coder:1.3b

# 删除别名
ollama rm my-coder

7.open-webui安装

7.1 docker-compose部署open-webui

version: '3.8'

services:
  webui:
    image: ghcr.io/open-webui/open-webui:main  # 纯WebUI镜像
    container_name: ollama-webui
    ports:
      - "3000:8080"  # 访问端口:http://IP:3000
    volumes:
      - ./webui-data:/app/backend/data  
docker-compose up -d

7.2 访问地址:http://IP:3000

  • 可以选择自己安装的模型