辣妈之野望 2 --Ollama配置技巧

辣妈之野望 2 –Ollama配置技巧

稻草人 • 2025-02-08 12:43 下午 • LLM之野望 • 阅读 239

在0.1.13 之后的版本Ollama支持用户访问多并发和模型加载多并发。

这可以让我们不需要排队。当然如果在同一台机器上运行，虽然不排队，但是并行计算所要求的GPU处理能力和显存要求还是一个总和。分布式就没这个问题。

当然个人用户可以简单用用，也是不错。

更多技术资讯下载: 2img.ai

相关配图由微信小程序【字形绘梦】免费生成

在Cmd中执行ollama -v 查看当前版本。如下图

直接在系统的环境变量中增加几个设置。这里以windows为例子，linux的请对应修改。

OLLAMA_NUM_PARALLEL=8 设置8个用户并发请求

OLLAMA_MAX_LOADED_MODELS=8 设置同时加载8个模型

类似下图中

OLLAMA_HOST=0.0.0.0 允许外网访问

OLLAMA_MODELS=E:\MyOllamaFolders 解决模型默认下载C 盘带来磁盘空间不够的问题

OLLAMA_KEEP_ALIVE=24h 设置模型加载到内存中保持24个小时(默认情况下，模型在卸载之前会在内存中保留 5 分钟)

OLLAMA_HOST=0.0.0.0:9871 修改默认端口11434端口到这里的9871端口

OLLAMA_NUM_PARALLEL=8 设置8个用户并发请求

OLLAMA_MAX_LOADED_MODELS=8 设置同时加载8个模型

RA/SD 衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/8828