本地部署开源大模型

谢晓冬

2025 年 03 月 10 日

277 次浏览

暂无评论

1971字数

AI助手

最近deepseek，qwq等开源大模型性能突飞猛进，但是网上各种web服务不太稳定，遂尝试在图形工作站上本地化部署。

windows操作系统部署ollama

网上很容易找到，最简单的本地化部署方法是ollama。而 ollama 中刚好也提供了 deepseek-r1, qwq 等模型的下载。默认70b主要是q4km量化模型，大概也就40GB出头。而工作站上配了两块A6000，加起来显存快100GB，所以应该是能够比较流畅运行 70b 这个大小的模型的。

安装完 ollama 之后，要修改一些配置，简单记录一下。主要就是各种环境变量。

2025-03-10T06:20:21.png

一个是用户环境变量PATH中，我把 ollama 安装到容量比较大的 E 盘了。另外就是系统环境变量。

OLLAMA_HOST=0.0.0.0:11434，改成这样就可以让别的电脑通过局域网访问到这个服务
OLLAMA_KEEP_ALIVE=60m, 这个是让模型能够在内存中维持60分钟，即便没有任何输入，从而避免重新载入内存的时间消耗
OLLAMA_MODELS=E:\Ollama.ollama，存放模型文件的，如果C盘空间不足，就从用户目录移动一下
OLLAMA_ORIGINS=*, 这个是允许跨源资源共享（CORS）所需要的，方便某些client调用ollama的api

2025-03-10T06:34:08.png

完成ollama的安装和配置之后，就是使用CMD命令行，通过 ollama pull {model} 的命令下载模型，例如：

ollama pull qwq

大模型的本地化部署到这里就结束了。如果要快速尝试，可以在命令行中 ollama run 来尝试与大模型对话。不过实际使用时，我们会使用各种client来调用。

ubuntu服务器部署更新ollama

ollama更新很快，目前还得手动更新。首先是关闭正在运行的 ollama 服务。然后是通过curl命令联网更新ollama，再然后是修改配置文件，重新加载配置，重新启动ollama，具体命令如下：

sudo service ollama stop
curl -fsSL https://ollama.com/install.sh | sh
sudo nano /etc/systemd/system/ollama.service
sudo systemctl daemon-reload
sudo systemctl restart ollama

配置文件内容备份一下：

该部分仅登录用户可见