Ollama + Open WebUI WSL上搭建本地AI模型-智慧文博士

打开 WSL 终端，执行官方一键安装脚本：
```
curl -fsSL https://ollama.com/install.sh | sh
```

验证安装是否成功：

ollama --version # 输出版本号（如ollama version 0.1.48）则安装成功

三、基础使用：运行 / 管理模型

1. 运行第一个模型（以 DeepSeek 为例）

Ollama 内置了主流模型的配置，直接执行模型名即可自动下载并运行：

ollama run deepseek # 自动下载DeepSeek模型并启动交互界面

首次运行会下载模型文件（DeepSeek-7B 约 4GB），耐心等待；
下载完成后进入交互模式，输入问题即可对话（如：介绍一下WSL）；
退出交互：输入/bye或按Ctrl + D。

2. 常用 Ollama 命令（模型管理）

命令	功能
`ollama list`	查看已下载的模型
`ollama pull deepseek`	单独下载模型（不运行）
`ollama rm deepseek`	删除指定模型
`ollama stop deepseek`	停止运行中的模型
`ollama serve`	后台启动 Ollama 服务（供 API 调用）

四、进阶：开启 GPU 加速（WSL 2 专属）

默认 Ollama 使用 CPU 运行模型，开启 GPU 加速可大幅提升推理速度，步骤如下：

安装 WSL 版 NVIDIA 驱动：
- 先在 Windows 侧安装 NVIDIA 显卡驱动（需支持 WSL 2）：https://www.nvidia.com/Download/index.aspx
- WSL 内安装 CUDA 依赖（无需完整安装 CUDA，仅需运行时）：
```
sudo apt install nvidia-cuda-toolkit -y
```

验证 GPU 识别：

nvidia-smi # 输出显卡信息则GPU适配成功

重启 Ollama 服务，自动调用 GPU：

sudo systemctl restart ollama ollama run deepseek # 再次运行模型，会自动使用GPU

五、通过 API 调用 Ollama（开发集成）

Ollama 内置 REST API，可在 WSL 内或 Windows 侧调用：

后台启动 Ollama 服务：
```
ollama serve & # & 表示后台运行
```

调用 API 示例（curl 测试）：

curl http://localhost:11434/api/generate -d '{ "model": "deepseek", "prompt": "解释Ollama的核心优势" }'

Python 调用示例：

import requests url = "http://localhost:11434/api/generate" data = { "model": "deepseek", "prompt": "用Python写一个调用Ollama API的示例", "stream": False # 关闭流式输出，直接返回完整结果 } response = requests.post(url, json=data) print(response.json()["response"])

Docker 安装 web-ui 界面

version: '3.8' services: open-webui: image: ghcr.io/open-webui/open-webui:main container_name: open-webui restart: always ports: - "3000:8080" # 主机端口:容器端口，可自定义（如 8088:8080） extra_hosts: - "host.docker.internal:host-gateway" # 关键：让容器访问主机的 Ollama volumes: - ./data:/app/backend/data # 持久化数据（对话、配置、插件） - ./models:/app/models # 可选：挂载自定义模型目录 environment: - OLLAMA_BASE_URL=http://host.docker.internal:11434 # 指定 Ollama 地址 - LANGUAGE=zh-CN # 强制中文界面 - TZ=Asia/Shanghai # 时区配置（避免日志时间错乱）

vLLM 0.11.0 发布：全面移除 V0 引擎，性能与多模态支持显著提升

vLLM 0.11.0 发布：架构统一、性能跃迁与多模态能力全面进化在大模型推理系统持续演进的今天，一个核心挑战始终摆在开发者面前：如何在不牺牲稳定性的前提下，持续引入前沿优化技术？vLLM 0.11.0 的发布给出了明确答案—…

李华

大模型原理全解析：从预训练到RLHF，一文带你揭开LLM的神秘面纱

本文详细解析大语言模型(LLM)的核心原理与训练流程，包括预训练、微调、强化学习(RL)和基于人类反馈的强化学习(RLHF)等关键技术。文章还探讨了模型推理过程、幻觉问题及解决方法，以及DeepSeek-R1等先进模型的训练方法。对LLM感兴趣的开发者和学习者可通过…

李华

vLLM部署Qwen3-8B：PagedAttention提升推理效率

vLLM部署Qwen3-8B：PagedAttention提升推理效率在消费级GPU上跑一个大模型，曾经是“不可能的任务”——显存不够、速度慢、并发低。但如今，随着 vLLM 和 PagedAttention 的出现，这一切正在被改写。以通义千问推出的 Qwen3-8B 为例…

李华

Dify插件开发完整指南

Dify插件开发完整指南在AI应用快速落地的今天，一个核心挑战摆在开发者面前：如何让大模型真正“理解”并操作现实世界的服务？答案往往不在于更复杂的Prompt，而在于打通外部系统的能力。这正是Dify插件机制的价值所在——它把API、…

李华

LobeChat能否解释决策过程？可解释性增强

LobeChat能否解释决策过程？可解释性增强在医疗咨询、投资建议或法律分析等高风险场景中，用户不会满足于AI只说“这是答案”——他们更想知道：“你为什么这么认为？” 这正是当前大语言模型（LLM）落地应用的核…

李华

边缘计算所使用的知识蒸馏、轻量化模型具体依据什么进行操作

边缘计算中使用知识蒸馏（Knowledge Distillation）和轻量化模型（Lightweight Models），主要是为了在资源受限的设备（如移动终端、IoT设备、嵌入式系统等）上实现高效、低延迟、低功耗的推理。其操作…

李华