Ollama 本地大模型部署指南
Ollama 本地大模型部署指南
在本地机器上轻松运行大语言模型(LLM),无需依赖云服务。
本教程共 12 章,涵盖从入门安装到生产部署的完整知识体系,适合希望在本地环境运行和管理大语言模型的开发者、运维工程师及 AI 爱好者。
目录总览
| 章节 | 标题 | 核心内容 |
|---|---|---|
| 01 | Ollama 概述与对比 | 特性介绍、支持模型、与 vLLM/LM Studio 对比 |
| 02 | 安装与环境配置 | Linux/macOS/Windows 安装、GPU 驱动配置 |
| 03 | 模型管理 | pull/run/list、Modelfile、模型导入导出 |
| 04 | REST API 详解 | Chat/Generate/Embeddings、流式响应 |
| 05 | 模型参数调优 | Temperature/Top-P/上下文长度/量化 |
| 06 | 自定义模型 | Modelfile 编写、系统提示、模板、模型合并 |
| 07 | GPU 加速配置 | CUDA/ROCm/Metal/多 GPU 配置 |
| 08 | 框架集成 | LangChain/LlamaIndex/Open WebUI |
| 09 | RAG 实现 | 文档处理、向量存储、检索增强生成 |
| 10 | Docker 部署 | Docker/Compose/NVIDIA 运行时 |
| 11 | 故障排查 | 常见错误、性能问题、内存不足 |
| 12 | 生产最佳实践 | 性能优化、安全管理、成本评估 |
适用读者
| 角色 | 适合从何处开始 |
|---|---|
| AI 初学者 | 第 1-3 章(理解概念 → 安装 → 跑通第一个模型) |
| 应用开发者 | 第 4、8、9 章(API → 框架集成 → RAG) |
| 运维/SRE 工程师 | 第 7、10、11、12 章(GPU → Docker → 排障 → 生产部署) |
| 全栈技术负责人 | 通读全部章节 |
前置要求
- 操作系统: Linux (Ubuntu 22.04+)、macOS 12+、Windows 10+
- 内存: 至少 8 GB RAM(推荐 16 GB+)
- 存储: 至少 20 GB 可用磁盘空间(视模型大小而定)
- GPU(可选): NVIDIA GPU (CUDA 11.7+)、AMD GPU (ROCm 5.7+)、Apple Silicon
技术栈概览
┌─────────────────────────────────────────────────┐
│ 应用层 (Application) │
│ LangChain · LlamaIndex · Open WebUI · 自研应用 │
├─────────────────────────────────────────────────┤
│ API 层 (REST API) │
│ /api/chat · /api/generate · /api/embeddings │
├─────────────────────────────────────────────────┤
│ Ollama 运行时 (Runtime) │
│ 模型调度 · 量化引擎 · 上下文管理 · GPU 调度 │
├─────────────────────────────────────────────────┤
│ 模型层 (Model Layer) │
│ Llama 3 · Qwen · Gemma · Mistral · DeepSeek │
├─────────────────────────────────────────────────┤
│ 硬件层 (Hardware) │
│ CPU · NVIDIA GPU · AMD GPU · Apple Silicon │
└─────────────────────────────────────────────────┘
快速开始
如果你想直接上手,以下三步即可在本地跑通一个模型:
# 1. 安装 Ollama(Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh
# 2. 拉取模型
ollama pull qwen2.5:7b
# 3. 运行对话
ollama run qwen2.5:7b
💡 提示: 详细安装步骤请参考 第 2 章:安装与环境配置。
版本说明
| 组件 | 版本 | 说明 |
|---|---|---|
| Ollama | ≥ 0.6.x | 本教程基于 0.6+ 编写,API 向下兼容 0.3+ |
| Go | 1.22+ | Ollama 运行时依赖 |
| CUDA | 11.7+ | NVIDIA GPU 支持 |
| ROCm | 5.7+ | AMD GPU 支持 |
扩展阅读
📖 开始阅读第一章: Ollama 概述与对比 →