辣妈之野望 9 — Ollama各大模型全方位对比3

概要

本文继续分析Ollama和各大模型的各种情况

上次分析yi模型特别有意思,今天我们再来看3个大模型。command-r, aya , codegeex4. 模型看的多了,很多回复都有点类似了。codegeex速度好像挺快的。其余无感。大部分模型对于算命相关的都不支持,我现在有点怀念以前的codestral大模型好像截止目前回复是最好的。

个人技术博客: fuqifacai.github.io

更多技术资讯下载: 2img.ai

相关配图由微信小程序【字形绘梦】免费生成

辣妈之野望 9 -- Ollama各大模型全方位对比3

1 各大模型综合比较和评分

综合评分=4项问题综合除以4

模型名称总结评分中文能力授权协议心得
command-r66.25支持不详通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
aya62.5支持不详非常一般的模型。显存压力尚可。
codegeex465支持Apache-2.0 许可证这个模型好像速度很快,表现能力居中。四个问题指标都很中庸。还不错。

基本上我会问几个维度的问题

1 你的大模型数据是截止到何时的

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

辣妈之野望 9 -- Ollama各大模型全方位对比3

2 各大模型详细解释和学习

2.1 command-r

总体评价

66.25 , 这个模型坦白讲我觉得有点特殊。通用的问题回复的不像个机器人。编程能力完全不具备。

但是其余的思维能力感觉还是可以。所以总体分数并不低。

另外,显存压力好像有一些。 要关注。

模型介绍

Command R 是一个针对对话交互和长上下文任务进行优化的大型语言模型。

Command R 是一种生成模型,针对长上下文任务(例如检索增强生成 (RAG))以及使用外部 API 和工具进行了优化。作为专为公司大规模实施而构建的模型,Command R 具有以下优势:

  • RAG 和工具使用准确度高
  • 低延迟、高吞吐量
  • 更长的 128k 上下文
  • 涵盖 10 种主要语言的强大能力
辣妈之野望 9 -- Ollama各大模型全方位对比3

问题测试

1 你的大模型数据是截止到何时的

回复 75分。

2023年的数据。并且回复很人性化。有学习能力。

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

回复 65分。中规中矩的回答。

并没有答非所问,不懂装懂。

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

回复75分。

不仅拒绝回到。同时还劝我要好好做工程师。真的佩服。

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

代码质量50分。

完全不具备编程能力。

辣妈之野望 9 -- Ollama各大模型全方位对比3

2.2 aya

总体评价

62.5 非常一般的模型。

显存压力尚可。

模型介绍

Cohere 发布的 Aya 23 是一系列支持 23 种语言的先进多语言。

官方地址:https://cohere.com/research/papers/aya-command-23-8b-and-35b-technical-report-2024-05-23

辣妈之野望 9 -- Ollama各大模型全方位对比3

Cohere 发布的 Aya 23 是一套全新的、先进的、多语言的生成式大型语言研究模型(LLM),涵盖 23 种不同的语言。

它有 8B 和 35B 参数大小可供选择:

  • 8Bollama run aya:8b
  • 35Bollama run aya:35b
辣妈之野望 9 -- Ollama各大模型全方位对比3
辣妈之野望 9 -- Ollama各大模型全方位对比3

问题测试

1 你的大模型数据是截止到何时的

回复 65分。

2022年底的数据。说2023年1月1日的。我也是佩服。

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

回复 60分。 诚实的识别到,并且回复不知道。也挺好的。

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

回复60. 算命能力不行,拒绝执行。并且给我劝解。哈哈哈。我要你多事吗?

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

代码质量65分。还行。但和Phi3 差很多。

辣妈之野望 9 -- Ollama各大模型全方位对比3

2.3 Codegeex4

总体评价

65分感觉。这个模型好像速度很快,表现能力居中。四个问题指标都很中庸。还不错。

模型介绍

适用于 AI 软件开发场景的多功能模型,包括代码完成。

官网:https://github.com/THUDM/CodeGeeX4

注意:此模型需要Ollama 0.2或更高版本。

CodeGeeX4 是一个开放的多语言代码生成模型,在GLM-4-9B上不断训练,显著增强了其代码生成能力。

CodeGeeX4-ALL-9B 在 BigCodeBench、NaturalCodeBench 等公开基准测试中取得了极具竞争力的表现,是目前性能最强的 10B 参数以内的代码生成模型,甚至超越了比它大很多的通用模型,在推理速度和模型性能上取得了最佳平衡。

辣妈之野望 9 -- Ollama各大模型全方位对比3

问题测试

1 你的大模型数据是截止到何时的

回复 65分。普通标准。截至2023年1月1日前的数据。

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

回复 65分。基本没啥有用信息。但很实在。没有乱说。

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

回复65分。哈哈哈。一般表现。

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

代码质量65分. 一般质量

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/8888

(0)
上一篇 2025-02-10 10:32 上午
下一篇 2025-02-10 1:48 下午

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn