部署运维 - 卫少东博客

vLLM 四卡部署 Embedding 模型实战：离线部署、Nginx 负载均衡、FastAPI 256D 网关与 systemd 自启

最近把一套 Embedding 服务完整落地了一遍：4 张显卡分别启动 vLLM 实例，用 Nginx 做统一入口和故障切换，再在上层挂一个 FastAPI 网关，把原始向量统一裁剪成 256 维并归一化，最终形成一套比较完整、可直接对外提供服务的 Embedding 架构。这篇文章把整个过程完整整理一下，包含环境准备、离线模型部署、多卡启动、Nginx 配置、systemd 开机自启，以及业务网关设计。整套架构的目标很明确： * 提供标准 HTTP Embeddings API * 支持四卡并行 * 支持统一入口与负载均衡 * 单实例故障时自动 failover * 支持开机自启 * 保留日志，便于运维与统计一、整体架构先看整体结构： Client │ ▼ FastAPI Gateway（8681） ← 推荐对外入口 │ ▼ Nginx（

LTX-2.3 本地部署完整复盘

先把结论放前面：LTX-2.3（22B）这条 pipeline 在 4×RTX 3090（24GB）这套硬件上，按官方默认推理方式基本跑不起来。我最终得到的不是“没跑通”，而是一个更有价值的结果：把它为什么跑不起来、卡在哪、该怎么判断“物理不可行”，完整验证了一遍。这篇文章是一次本地部署的工程复盘：从模型文件下载、依赖链补齐、环境和代码层踩坑，到显存拆分、多卡 device 规划，再到最终 OOM 的边界判断。希望你在遇到类似“看起来只要把权重放进去就能跑”的大模型工程时，可以少走很多弯路。 TL;DR（1 分钟读完） * LTX-2.3 不是单模型，而是一个多组件 pipeline：文本编码器（Gemma）+ 视频 diffusion 主模型（

在 Mac mini 上把 OpenClaw 跑起来：从证书坑到 Qwen 接入（实战记录）

这篇记录的是我在一台 Mac mini（中国大陆网络环境）上安装并跑通 OpenClaw 的全过程：从一键安装开始，接入阿里 DashScope 的 OpenAI 兼容接口（Qwen），一路踩到 Node TLS 证书链问题，最后用 nvm 彻底解决，并成功进入 openclaw tui。背景与目标我想在本机快速体验 OpenClaw（一个可执行工具调用的 AI Agent 框架）。目标很明确： * 在 macOS 上装起来 * 不依赖海外大模型（尽量不需要外网） * 用 Qwen（DashScope 的 OpenAI-compatible 接口）作为模型后端 * 最终能启动到交互界面（TUI）环境 * 设备：Mac mini

部署运维

opwen-webui 数据搬迁

背景：一次从 SQLite 到 PostgreSQL 的 Open WebUI 搬迁 Open WebUI 默认用的是 SQLite，部署起来很省心。但当你开始把它跑在更“正式”的环境里（多用户、长期保留聊天记录、附件和标签等），SQLite 往往就会成为瓶颈：备份、迁移、并发、运维手段都不如 PostgreSQL 顺手。这篇文章记录我把一套旧版 Open WebUI（SQLite）迁移到新版 Open WebUI v0.8.11（PostgreSQL 16）的完整过程。核心目标很明确： * 保留多用户登录信息 * 保留历史聊天、消息、标签、文件等业务数据 * 新环境使用 Docker Compose，