💼 工作笔记

工作经验、技术实践、项目总结

环境搭建和基础部署

大模型推理部署实战(一):vLLM从入门到生产 记录从零开始学习大模型推理部署的完整过程,基于vGPU云服务器环境 🎯 本周成果 ✅ 成功部署Qwen2-7B模型,实现156 tokens/s的优秀性能 ✅ 搭建OpenAI兼容API服务,支持25个标准端点 ✅ 建立完整的服务管理体系,包含启动、监控、测试 ✅ 掌握vGPU环境特点和优化策略 🏗️ 环境配置 硬件环境 云平台: InternStudio开发机,这里感谢上海人工智能实验室的算力支持(参加了训练营获得的算力) GPU: A100-80GB的30%算力 (约24GB显存) 优势: 成本低、配置灵活、开箱即用 软件安装 # 创建环境 conda create -n llm-inference...