在0.1.13 之后的版本Ollama支持用户访问多并发和模型加载多并发。
这可以让我们不需要排队。当然如果在同一台机器上运行,虽然不排队,但是并行计算所要求的GPU处理能力和显存要求还是一个总和。分布式就没这个问题。
当然个人用户可以简单用用,也是不错。
更多技术资讯下载: 2img.ai
相关配图由微信小程序【字形绘梦】免费生成

第一步,确保版本支持。
在Cmd中执行ollama -v 查看当前版本。如下图

第二步,如何控制用户访问多并发和模型加载多并发呢?
直接在系统的环境变量中增加几个设置。这里以windows为例子,linux的请对应修改。
OLLAMA_NUM_PARALLEL=8 设置8个用户并发请求
OLLAMA_MAX_LOADED_MODELS=8 设置同时加载8个模型
类似下图中

其余重要的参数设置,也可以同样的设置。
罗列如下
OLLAMA_HOST=0.0.0.0 允许外网访问
OLLAMA_MODELS=E:\MyOllamaFolders 解决模型默认下载C 盘带来磁盘空间不够的问题
OLLAMA_KEEP_ALIVE=24h 设置模型加载到内存中保持24个小时(默认情况下,模型在卸载之前会在内存中保留 5 分钟)
OLLAMA_HOST=0.0.0.0:9871 修改默认端口11434端口到这里的9871端口
OLLAMA_NUM_PARALLEL=8 设置8个用户并发请求
OLLAMA_MAX_LOADED_MODELS=8 设置同时加载8个模型

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/8828