KoboldCpp 教程:本地 LLM 接入 SillyTavern 与 MiniTavern(2026 隐私指南)
KoboldCpp 是基于 llama.cpp 的便携推理服务器,在 5001 端口提供 Kobold 与 OpenAI 兼容 API——适合注重隐私的 SillyTavern、MiniTavern 角色卡扮演,无需云端 Key。
- koboldcpp
- 本地模型
- 隐私
- sillytavern
- minitavern
- 教程
KoboldCpp 教程:本地 LLM 接入 SillyTavern 与 MiniTavern(2026 隐私指南)
在 SillyTavern 和 MiniTavern 的本地大模型后端里,KoboldCpp 是老玩家心中的硬核之选:基于 llama.cpp 的单文件可执行程序,无需安装,专为 GGUF 模型优化,从 KoboldAI 时代就深度接入酒馆生态。如果你想零云端 API、完全掌控 GPU 层数、上下文和采样参数——KoboldCpp 值得列入候选。
本文介绍 KoboldCpp 是什么、与 LM Studio / Ollama 的差异,以及 2026 年接入 SillyTavern 与 MiniTavern 的完整流程。
什么是 KoboldCpp?
KoboldCpp(项目:LostRuins/koboldcpp)是面向 GGUF 及旧版 GGML 模型的本地推理服务器。下载对应系统二进制、选模型、点 Launch,即可获得:
- Kobold API:
http://localhost:5001/api/(SillyTavern 原生支持的文本补全协议) - OpenAI 兼容 API:
http://localhost:5001/v1/(供新版 ST 连接器或 MiniTavern 使用) - KoboldAI Lite:内置浏览器测试页,开酒馆前先确认模型能正常回复
与云端不同,角色卡、世界书、聊天记录不会离开你的机器。
KoboldCpp 与经典 KoboldAI 的区别
| KoboldCpp | KoboldAI United(经典版) | |
|---|---|---|
| 分发 | 便携单文件 .exe / 二进制 | 安装较重,含 Colab 方案 |
| 模型 | 以 GGUF 为主 | 格式混杂 |
| API | Kobold + OpenAI,端口 5001 | Kobold API |
| SillyTavern | 专用 KoboldCpp API 类型 | 旧版 KoboldAI 连接器 |
| 维护 | 2026 年持续更新 | 本地场景多被 KoboldCpp 取代 |
教程里说的「本地接 KoboldAI」,现在通常指的就是 KoboldCpp。
KoboldCpp 核心术语
| 术语 | 含义 |
|---|---|
| Quick Launch(快速启动) | GUI 页签:浏览 GGUF、设上下文、GPU 层数并启动 |
GPU Layers(n_gpu_layers) | 多少层跑在 GPU、多少溢出到 CPU——显存调优关键 |
| Context Size(上下文长度) | KoboldCpp 分配的最大 token,须在 Launch 前 设定(默认可能仅 4K) |
| CuBLAS / CUDA 后端 | NVIDIA 加速构建(koboldcpp.exe) |
| nocuda 构建 | 体积更小;AMD 建议在 GUI 选 Vulkan |
| Kobold API | ST 在 API Type = KoboldCpp 时使用的文本补全端点 |
| Remote Tunnel(远程隧道) | 生成临时公网 URL(如 Cloudflare),供局域网外访问 |
| .kcppt | KoboldCpp 预设模板,打包模型与启动参数 |
| KoboldAI Lite | 启动后内嵌的轻量聊天页,用于自检 |
为什么注重隐私的酒馆用户选 KoboldCpp?
- 无需账号、不上传 OpenAI — 推理只在你的 GPU/CPU 完成。
- 硬件控制精细 — 层数拆分、上下文、量化——8–12 GB 显存用户最爱。
- SillyTavern 一等公民 — 官方文档路径:Text Completion → KoboldCpp。
- 便携 — 整个文件夹拷到游戏本或离线笔记本即可开玩。
MiniTavern 用户同样受益:局域网把 多模型中枢 指向 http://192.168.x.x:5001/v1;外出可用 Remote Tunnel,或参考本站 LM Studio LM Link 指南 的加密远程方案。
准备工作
- 系统:Windows、Linux 或 macOS(有 ARM Mac 构建)。
- GPU:NVIDIA 6 GB+ 显存可跑 7B Q4;12 GB+ 更适合 8B–14B 扮演。
- 内存:系统 RAM 建议 16 GB 起,32 GB 对 CPU 卸载更友好。
- 模型:Hugging Face 上的 GGUF(如 Mistral 7B Instruct、Qwen2.5 7B、Llama 3.1 8B)。
- SillyTavern 或 MiniTavern 中已备好角色卡(Card Quest 市场 或 Chrome 扩展导入)。
第一步:下载合适的 KoboldCpp 构建
从 GitHub Releases 获取最新版:
| 硬件 | 推荐文件 |
|---|---|
| 较新 NVIDIA GPU | koboldcpp.exe(CUDA 12) |
| 老显卡 / 弱 CPU | oldpc 变体(CUDA 11 + AVX) |
| AMD GPU | nocuda + GUI 中选 Vulkan |
| Apple Silicon Mac | koboldcpp-mac-arm64 |
| Linux NVIDIA | koboldcpp-linux-x64 |
Windows 可能出现 SmartScreen 提示——选择 仍要运行(你运行的是本地下载的工具)。
第二步:下载 GGUF 模型
在 Hugging Face 搜索适合角色扮演的 instruct 模型:
Mistral-7B-Instruct-v0.3-GGUFQwen2.5-7B-Instruct-GGUFLlama-3.1-8B-Instruct-GGUF
8 GB 显存选 Q4_K_M 或 Q5_K_M 量化,记下 .gguf 存放路径。
第三步:配置 Quick Launch
- 打开 KoboldCpp。
- Quick Launch → Browse → 选择
.gguf。 - Context Size 按显存设定(带世界书的 RP 常用 4096–8192;越大越吃显存)。
- GPU Layers:首次保留自动填充值;OOM 或变慢后再调。
- NVIDIA:勾选 Use CuBLAS,确认 GPU ID 对应你的显卡。
- Hardware 页签 → 可选 High Priority(减少卡顿)。
- Save 保存配置 → Launch。
等待出现:
Starting Kobold API on port 5001 at http://localhost:5001/api/
Starting OpenAI Compatible API on port 5001 at http://localhost:5001/v1/
先在 KoboldAI Lite(浏览器自动打开)里测一句,再开 SillyTavern。
第四步:接入 SillyTavern(推荐 Text Completion)
- 打开 SillyTavern → 插头图标 → API Connections。
- API:Text Completion。
- API Type:KoboldCpp。
- Server URL:
http://127.0.0.1:5001/(或http://localhost:5001/)。 - Connect — ST 应显示已加载的
.gguf文件名。 - 导入角色卡 → 发送开场白测试。
扮演调优:
- 7B 本地模型宜精简系统提示。
- ST 上下文不得超过 KoboldCpp Launch 时设定的 Context Size。
- 温度 0.7–0.9;重复惩罚 1.05–1.15 可减复读。
- 更多见 本地 LLM 隐私指南。
备选:Chat Completion(OpenAI 兼容)
- API:Chat Completion。
- Source:Custom(OpenAI-compatible)。
- Base URL:
http://127.0.0.1:5001/v1。 - 连接并选模型。
适合 chat 格式预设,或接入 MiniTavern 的 OpenAI 兼容中枢。
第五步:手机 / 局域网接入 MiniTavern
同一 Wi-Fi(手机推荐):
- 查看 PC 局域网 IP(如
192.168.1.50)。 - 确认 KoboldCpp 允许局域网访问(防火墙放行 5001 端口)。
- MiniTavern → 自定义端点 →
http://192.168.1.50:5001/v1。
外出:
- 开启 KoboldCpp Remote Tunnel 获取临时 HTTPS 链接。
- 或在 VPN/Tailscale 连接的笔记本上访问
localhost:5001。
推荐链路:角色卡市场 → Chrome 扩展 → MiniTavern iOS/Android 指向家中 KoboldCpp。
显存与 GPU Layers 速查
| 显存 | 建议起点 |
|---|---|
| 6 GB | 7B Q4,上下文 4096,OOM 则减 GPU Layers |
| 8 GB | 7B Q4/Q5 或 8B Q4,上下文 4096–6144 |
| 12 GB | 8B–14B Q4,上下文 8192 |
| 16 GB+ | 14B Q4,世界观重的卡可加大上下文 |
层溢出到 CPU 会明显变慢——降低 GPU Layers 或换更小量化。
角色扮演推荐模型
| 模型 | 量化 | 说明 |
|---|---|---|
| Qwen2.5 7B Instruct | Q4_K_M | 指令跟随强,适合角色卡 |
| Mistral 7B Instruct v0.3 | Q4_K_M | 速度快,经典 RP 选择 |
| Llama 3.1 8B Instruct | Q4_K_M | 质量与速度均衡 |
| 社区 RP 微调合并 | Q4+ | Hugging Face 上的 Tiefighter 等 |
复杂人设与世界书避免 3B 以下小模型。
常见问题
| 现象 | 处理 |
|---|---|
| ST 上下文超过 4K 无效 | 在 KoboldCpp Launch 前 提高 Context Size |
| 连接被拒绝 | 确认 KoboldCpp 已启动;URL 为 http://127.0.0.1:5001/ |
| CUDA 启动报错 | 换 oldpc 构建或 nocuda + Vulkan |
| 乱码 / 格式错 | 用 Text Completion + KoboldCpp,或修正 chat template |
| 长聊后变慢 | 上下文满——新开对话或做摘要 |
| ST 不显示模型 | Launch 完成后再点 Connect |
KoboldCpp vs LM Studio vs Ollama
| KoboldCpp | LM Studio | Ollama | |
|---|---|---|---|
| 安装 | 便携二进制 | 桌面应用 | CLI/守护进程 |
| 默认端口 | 5001 | 1234 | 11434 |
| ST 原生连接器 | KoboldCpp 类型 | KoboldAI / OpenAI | Ollama |
| GPU 调优 | 深度(层数、量化) | GUI 友好 | 较简单 |
| 远程手机 | Remote Tunnel | LM Link(Tailscale) | 主要限于局域网 |
| 适合 | 硬核用户、ST 老玩家 | 图形化选模型 | 快速拉模型 |
常见组合:游戏 PC 跑 KoboldCpp + 手机 MiniTavern 走局域网——私密、无订阅。
隐私实践建议
- 在 ST/MiniTavern 关闭云端 API 回退。
- 从可信 Hugging Face 仓库下载模型。
- Remote Tunnel 会暴露端点——不用时关闭。
- 私密 lore 可 加密 PNG 角色卡。
- 定期更新 KoboldCpp——性能与安全修复频繁。
结语
KoboldCpp 仍是 2026 年用 本地 LLM API 驱动 SillyTavern、MiniTavern 角色卡扮演的利器:便携、私密、与酒馆栈深度集成。下载 GGUF,在 5001 端口 Launch,ST 选 Text Completion → KoboldCpp,家里的 GPU 就是唯一的推理提供方。
准备好建库?浏览角色卡市场,安装 MiniTavern 移动端,把连接器指向 localhost:5001 即可开聊。
继续阅读
你可能还会喜欢这些文章
2026年SillyTavern角色卡管理指南:文件夹、标签与元数据的最佳实践
随着SillyTavern社区在2026年的蓬勃发展,角色卡(Character Cards)的数量正以指数级增长。无论你是刚接触角色扮演的新手,还是拥有数百张卡片的资深玩家,如何高效管理这些珍贵的角色资源,已经成为提升创作体验的关键。今天,我们将以一张名为「Archive Keeper」(档案守护者)的特色…
- character-card-collection
- organization
- metadata
- sillytavern
最佳SillyTavern角色卡下载地:Chub、Discord与更多宝藏平台
如果你正在使用SillyTavern进行AI角色扮演,那么你一定知道——角色卡(Character Cards)是整个体验的灵魂。一张精心设计的角色卡不仅包含角色设定、对话风格,还能通过PNG或JSON文件轻松导入,让你的AI伙伴瞬间“活”起来。但问题来了:去哪里下载高质量的角色卡? 今天,我们就来盘点最佳的…
- download
- character-cards
- chub
- sillytavern
从Chub下载并安装SillyTavern角色卡:完整指南(附魅惑女巫米拉示例)
你是否曾在SillyTavern社区看到别人分享的精彩角色卡,却不知道如何将它们安装到自己的聊天界面中?或者你在Chub(一个流行的角色卡托管平台)上发现了心仪的角色,但面对下载选项感到困惑?本文将手把手教你如何从Chub下载SillyTavern角色卡,并以热门角色“魅惑女巫米拉”(Mira the Enc…
- download
- chub
- sillytavern
- character-cards