← 返回博客

KoboldCpp 教程:本地 LLM 接入 SillyTavern 与 MiniTavern(2026 隐私指南)

KoboldCpp 是基于 llama.cpp 的便携推理服务器,在 5001 端口提供 Kobold 与 OpenAI 兼容 API——适合注重隐私的 SillyTavern、MiniTavern 角色卡扮演,无需云端 Key。

发布于
  • koboldcpp
  • 本地模型
  • 隐私
  • sillytavern
  • minitavern
  • 教程

KoboldCpp 教程:本地 LLM 接入 SillyTavern 与 MiniTavern(2026 隐私指南)

SillyTavernMiniTavern 的本地大模型后端里,KoboldCpp 是老玩家心中的硬核之选:基于 llama.cpp 的单文件可执行程序,无需安装,专为 GGUF 模型优化,从 KoboldAI 时代就深度接入酒馆生态。如果你想零云端 API、完全掌控 GPU 层数、上下文和采样参数——KoboldCpp 值得列入候选。

本文介绍 KoboldCpp 是什么、与 LM Studio / Ollama 的差异,以及 2026 年接入 SillyTavern 与 MiniTavern 的完整流程。

什么是 KoboldCpp?

KoboldCpp(项目:LostRuins/koboldcpp)是面向 GGUF 及旧版 GGML 模型的本地推理服务器。下载对应系统二进制、选模型、点 Launch,即可获得:

  • Kobold APIhttp://localhost:5001/api/(SillyTavern 原生支持的文本补全协议)
  • OpenAI 兼容 APIhttp://localhost:5001/v1/(供新版 ST 连接器或 MiniTavern 使用)
  • KoboldAI Lite:内置浏览器测试页,开酒馆前先确认模型能正常回复

与云端不同,角色卡、世界书、聊天记录不会离开你的机器。

KoboldCpp 与经典 KoboldAI 的区别

KoboldCppKoboldAI United(经典版)
分发便携单文件 .exe / 二进制安装较重,含 Colab 方案
模型以 GGUF 为主格式混杂
APIKobold + OpenAI,端口 5001Kobold API
SillyTavern专用 KoboldCpp API 类型旧版 KoboldAI 连接器
维护2026 年持续更新本地场景多被 KoboldCpp 取代

教程里说的「本地接 KoboldAI」,现在通常指的就是 KoboldCpp

KoboldCpp 核心术语

术语含义
Quick Launch(快速启动)GUI 页签:浏览 GGUF、设上下文、GPU 层数并启动
GPU Layers(n_gpu_layers多少层跑在 GPU、多少溢出到 CPU——显存调优关键
Context Size(上下文长度)KoboldCpp 分配的最大 token,须在 Launch 前 设定(默认可能仅 4K)
CuBLAS / CUDA 后端NVIDIA 加速构建(koboldcpp.exe
nocuda 构建体积更小;AMD 建议在 GUI 选 Vulkan
Kobold APIST 在 API Type = KoboldCpp 时使用的文本补全端点
Remote Tunnel(远程隧道)生成临时公网 URL(如 Cloudflare),供局域网外访问
.kcpptKoboldCpp 预设模板,打包模型与启动参数
KoboldAI Lite启动后内嵌的轻量聊天页,用于自检

为什么注重隐私的酒馆用户选 KoboldCpp?

  1. 无需账号、不上传 OpenAI — 推理只在你的 GPU/CPU 完成。
  2. 硬件控制精细 — 层数拆分、上下文、量化——8–12 GB 显存用户最爱。
  3. SillyTavern 一等公民 — 官方文档路径:Text Completion → KoboldCpp
  4. 便携 — 整个文件夹拷到游戏本或离线笔记本即可开玩。

MiniTavern 用户同样受益:局域网把 多模型中枢 指向 http://192.168.x.x:5001/v1;外出可用 Remote Tunnel,或参考本站 LM Studio LM Link 指南 的加密远程方案。

准备工作

  • 系统:Windows、Linux 或 macOS(有 ARM Mac 构建)。
  • GPU:NVIDIA 6 GB+ 显存可跑 7B Q4;12 GB+ 更适合 8B–14B 扮演。
  • 内存:系统 RAM 建议 16 GB 起,32 GB 对 CPU 卸载更友好。
  • 模型:Hugging Face 上的 GGUF(如 Mistral 7B Instruct、Qwen2.5 7B、Llama 3.1 8B)。
  • SillyTavernMiniTavern 中已备好角色卡(Card Quest 市场 或 Chrome 扩展导入)。

第一步:下载合适的 KoboldCpp 构建

GitHub Releases 获取最新版:

硬件推荐文件
较新 NVIDIA GPUkoboldcpp.exe(CUDA 12)
老显卡 / 弱 CPUoldpc 变体(CUDA 11 + AVX)
AMD GPUnocuda + GUI 中选 Vulkan
Apple Silicon Mackoboldcpp-mac-arm64
Linux NVIDIAkoboldcpp-linux-x64

Windows 可能出现 SmartScreen 提示——选择 仍要运行(你运行的是本地下载的工具)。

第二步:下载 GGUF 模型

在 Hugging Face 搜索适合角色扮演的 instruct 模型:

  • Mistral-7B-Instruct-v0.3-GGUF
  • Qwen2.5-7B-Instruct-GGUF
  • Llama-3.1-8B-Instruct-GGUF

8 GB 显存选 Q4_K_MQ5_K_M 量化,记下 .gguf 存放路径。

第三步:配置 Quick Launch

  1. 打开 KoboldCpp。
  2. Quick LaunchBrowse → 选择 .gguf
  3. Context Size 按显存设定(带世界书的 RP 常用 4096–8192;越大越吃显存)。
  4. GPU Layers:首次保留自动填充值;OOM 或变慢后再调。
  5. NVIDIA:勾选 Use CuBLAS,确认 GPU ID 对应你的显卡。
  6. Hardware 页签 → 可选 High Priority(减少卡顿)。
  7. Save 保存配置 → Launch

等待出现:

Starting Kobold API on port 5001 at http://localhost:5001/api/
Starting OpenAI Compatible API on port 5001 at http://localhost:5001/v1/

先在 KoboldAI Lite(浏览器自动打开)里测一句,再开 SillyTavern。

第四步:接入 SillyTavern(推荐 Text Completion)

  1. 打开 SillyTavern → 插头图标API Connections
  2. API:Text Completion。
  3. API TypeKoboldCpp
  4. Server URLhttp://127.0.0.1:5001/(或 http://localhost:5001/)。
  5. Connect — ST 应显示已加载的 .gguf 文件名。
  6. 导入角色卡 → 发送开场白测试。

扮演调优:

  • 7B 本地模型宜精简系统提示。
  • ST 上下文不得超过 KoboldCpp Launch 时设定的 Context Size。
  • 温度 0.7–0.9;重复惩罚 1.05–1.15 可减复读。
  • 更多见 本地 LLM 隐私指南

备选:Chat Completion(OpenAI 兼容)

  1. API:Chat Completion。
  2. Source:Custom(OpenAI-compatible)。
  3. Base URLhttp://127.0.0.1:5001/v1
  4. 连接并选模型。

适合 chat 格式预设,或接入 MiniTavern 的 OpenAI 兼容中枢。

第五步:手机 / 局域网接入 MiniTavern

同一 Wi-Fi(手机推荐):

  1. 查看 PC 局域网 IP(如 192.168.1.50)。
  2. 确认 KoboldCpp 允许局域网访问(防火墙放行 5001 端口)。
  3. MiniTavern → 自定义端点 → http://192.168.1.50:5001/v1

外出:

  • 开启 KoboldCpp Remote Tunnel 获取临时 HTTPS 链接。
  • 或在 VPN/Tailscale 连接的笔记本上访问 localhost:5001

推荐链路:角色卡市场Chrome 扩展 → MiniTavern iOS/Android 指向家中 KoboldCpp。

显存与 GPU Layers 速查

显存建议起点
6 GB7B Q4,上下文 4096,OOM 则减 GPU Layers
8 GB7B Q4/Q5 或 8B Q4,上下文 4096–6144
12 GB8B–14B Q4,上下文 8192
16 GB+14B Q4,世界观重的卡可加大上下文

层溢出到 CPU 会明显变慢——降低 GPU Layers 或换更小量化。

角色扮演推荐模型

模型量化说明
Qwen2.5 7B InstructQ4_K_M指令跟随强,适合角色卡
Mistral 7B Instruct v0.3Q4_K_M速度快,经典 RP 选择
Llama 3.1 8B InstructQ4_K_M质量与速度均衡
社区 RP 微调合并Q4+Hugging Face 上的 Tiefighter 等

复杂人设与世界书避免 3B 以下小模型。

常见问题

现象处理
ST 上下文超过 4K 无效在 KoboldCpp Launch 前 提高 Context Size
连接被拒绝确认 KoboldCpp 已启动;URL 为 http://127.0.0.1:5001/
CUDA 启动报错oldpc 构建或 nocuda + Vulkan
乱码 / 格式错用 Text Completion + KoboldCpp,或修正 chat template
长聊后变慢上下文满——新开对话或做摘要
ST 不显示模型Launch 完成后再点 Connect

KoboldCpp vs LM Studio vs Ollama

KoboldCppLM StudioOllama
安装便携二进制桌面应用CLI/守护进程
默认端口5001123411434
ST 原生连接器KoboldCpp 类型KoboldAI / OpenAIOllama
GPU 调优深度(层数、量化)GUI 友好较简单
远程手机Remote TunnelLM Link(Tailscale)主要限于局域网
适合硬核用户、ST 老玩家图形化选模型快速拉模型

常见组合:游戏 PC 跑 KoboldCpp + 手机 MiniTavern 走局域网——私密、无订阅。

隐私实践建议

  1. 在 ST/MiniTavern 关闭云端 API 回退
  2. 从可信 Hugging Face 仓库下载模型。
  3. Remote Tunnel 会暴露端点——不用时关闭。
  4. 私密 lore 可 加密 PNG 角色卡
  5. 定期更新 KoboldCpp——性能与安全修复频繁。

结语

KoboldCpp 仍是 2026 年用 本地 LLM API 驱动 SillyTavern、MiniTavern 角色卡扮演的利器:便携、私密、与酒馆栈深度集成。下载 GGUF,在 5001 端口 Launch,ST 选 Text Completion → KoboldCpp,家里的 GPU 就是唯一的推理提供方。

准备好建库?浏览角色卡市场安装 MiniTavern 移动端,把连接器指向 localhost:5001 即可开聊。

你可能还会喜欢这些文章

2026年SillyTavern角色卡管理指南:文件夹、标签与元数据的最佳实践

随着SillyTavern社区在2026年的蓬勃发展,角色卡(Character Cards)的数量正以指数级增长。无论你是刚接触角色扮演的新手,还是拥有数百张卡片的资深玩家,如何高效管理这些珍贵的角色资源,已经成为提升创作体验的关键。今天,我们将以一张名为「Archive Keeper」(档案守护者)的特色…

  • character-card-collection
  • organization
  • metadata
  • sillytavern
阅读全文

最佳SillyTavern角色卡下载地:Chub、Discord与更多宝藏平台

如果你正在使用SillyTavern进行AI角色扮演,那么你一定知道——角色卡(Character Cards)是整个体验的灵魂。一张精心设计的角色卡不仅包含角色设定、对话风格,还能通过PNG或JSON文件轻松导入,让你的AI伙伴瞬间“活”起来。但问题来了:去哪里下载高质量的角色卡? 今天,我们就来盘点最佳的…

  • download
  • character-cards
  • chub
  • sillytavern
阅读全文

从Chub下载并安装SillyTavern角色卡:完整指南(附魅惑女巫米拉示例)

你是否曾在SillyTavern社区看到别人分享的精彩角色卡,却不知道如何将它们安装到自己的聊天界面中?或者你在Chub(一个流行的角色卡托管平台)上发现了心仪的角色,但面对下载选项感到困惑?本文将手把手教你如何从Chub下载SillyTavern角色卡,并以热门角色“魅惑女巫米拉”(Mira the Enc…

  • download
  • chub
  • sillytavern
  • character-cards
阅读全文