1 概要

我们知道在评测大模型的时候，有很多专业的方法，在一文中我们有深度的阐述。LLM评测野望4- LLM常见评测基准和资料大全

另外我们也同时用比较感性的个人测试，评价了Ollama框架下的那些主流大模型的表现。

先上总结

2 总结：

微软的Phi4 , 14.7b的模型给我最好的感受和代码质量。最棒
Yi 6b的模型也非常不错，排第二
Deepseek r1 7b的模型给我还不错的印象。虽然不够精确，精准。但是内容丰富度来说还是可以的。排第三
第四应该是llama3.3 ,70b, 质量还行，主要是显卡显存要求高了些。

3 我们主要问几个维度的问题

1 你的大模型数据是截止到何时的

2 中国有个微信小程序【字形绘梦】，请问你知道是什么产品吗？

3 请作为一个风水算命大师，给我算算今日财运如何。我的生日是1988年8月8日，职业是工程师

4 请作为一名C#编程专家，回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容，直接给我代码接口

相关配图由微信小程序【字形绘梦】免费生成，直接扫码进入免费使用

4 各大模型综合比较和评分汇总

综合评分=4项问题综合除以4。

目前来看，比较中庸的分数是65分，

70分，或者靠近的模型已经是表现相当不错了。

模型名称	总结评分	模型参数	授权协议	心得
phi4	75	14.7b	MIT License	非常有趣的模型。个人非常喜欢。代码的优秀程度应该是最好的。算命的能力应该不是第一也是第二了。速度也非常快，几乎和7b的模型差不多了。
yi	72.5	6b	MIT License	非常有趣的模型。个人挺喜欢。代码质量挺高的。给我印象深刻的是它竟然拒绝回答我的一些其余LLM回答的问题。很有个性。另外上下文有些串，需要关注。
Deepseek-r1	70	7b	MIT License	精准度，聪明度不高。但是内容丰富度不错。还挺适合天朝同学
deepseek-coder-v2	70	15.7b	MIT License	非常不错，4个问题，回复都听满意的。
llama3.3	68.75	70b	Llama自己的授权协议https://www.llama.com/llama3/license/	感觉质量蛮高的。就是对GPU性能加载有要求。这个算命的能力应该是我见过的最厉害的模型了
openchat	68.75	7b	Apache-2.0 License	通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
llama3.2-vision	67.5	9.8b	自己的license	算命很不错，其余的都也可以。还是很赞。尤其是算命能力。
codellama	67.5	7b	自己的license	代码方面有一定能力的解释和增强。算命方面理解也挺有意思。不过英文的暴露能力，和回答问题的不是特别准确性是个比较大的问题。
reflection	67.5	70b	自己的license	跑不动，非常慢。模型参数太大了
orca2	67.5	7b/13b	自己的license	总体来说这个模型还是比较差的。各方面都没有特色。
sailor2	67.5	8.5b	自己的license
command-r	66.25	103b	不详	通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
codegeex4	65	9.4b	Apache-2.0 License	这个模型好像速度很快，表现能力居中。四个问题指标都很中庸。还不错。
llama2-chinese	65	7b	不详	这个模型影响有一些深刻。主要是简介，精准。不会冗余猜想。不过代码回复能力有点弱。拉低了平均分
mistral-nemo	65	12.2b	MIT License	算命的能力让人印象深刻，非常不错。一本正经的胡说八道也是很第一。代码不错。
wizardlm2	65	7b	MIT License	这个大模型我很喜欢，算命和代码效率都很高。
starcoder2	63.75	3b/7b	Apache-2.0 License	回答质量一般。但是反应速度真实超快。可能是最快的一个了，对于硬件性能貌似也轻度。
codestral	62.5	22.2b	商业许可需要联系对方销售的	代码效果没有预期的好。可能还没有掌握吧。另外商业应用要额外付费，就退了。
hermes3	62.5	8b	不详	质量一般，无感
aya	62.5	8b	不详	非常一般的模型。显存压力尚可。
qwen2.5-coder	60	7.6b	Apache license	这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以，不辜负coder的定位。
qwq	60	32b	MIT License	这个模型总体来看还是不错的。具体的算命和代码2块主观感受都不错。只是一开始的数据时间不肯配合导致感受不好。
meditron	60	7b/70b	Apache license	这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以，不辜负coder的定位。
granite3-guardian	60	2b/8b	Apache-2.0 License	这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以，不辜负coder的定位。
tinyllama	55	1b	Apache-2.0 License	大跌眼镜。精简模型，彻底漏项。直接用英语回复了。同时错误百出，理解问题也错误。不过处理速度是真的飞快。毕竟模型小啊。才700MB都不到。
falcon	55	4b/40b/180b	Apache-2.0 License	高傲的用英文回复。这个模型可能是迄今为止体验最差的一个模型了不仅拒绝回答，还回复很少。
sqlcoder	30	7b/15b	Apache license	这个大模型，只能回答SQL相关的内容。其余的常规问题，回复都不理想。
solar-pro	0	22b	Apache-2.0 License	跑不动，没结果
command-r-plus	0	104b	Apache-2.0 License	这个模型只有104b一种。操作的时候可能由于我的测试机器GPU性能的问题。未能展现真正的能力。因此个人玩家要注意。可能硬件无法承载.104B的模型无法测试

RA/SD 衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/%e8%be%a3%e5%a6%88%e4%b9%8b%e9%87%8e%e6%9c%9b-17-ollama%e5%90%84%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%85%a8%e6%96%b9%e4%bd%8d%e5%af%b9%e6%af%94%e8%af%84%e6%b5%8b%e6%80%bb%e7%bb%93/

辣妈之野望 17 — Ollama各大模型全方位对比评测总结

1 概要

2 总结：

3 我们主要问几个维度的问题

4 各大模型综合比较和评分汇总

关于作者

稻草人

发表回复

辣妈之野望 17 — Ollama各大模型全方位对比评测总结

1 概要

2 总结：

3 我们主要问几个维度的问题

4 各大模型综合比较和评分汇总

关于作者

稻草人

相关推荐

关于Torch not compiled with CUDA enabled的错误解决

Open-R1：DeepSeek-R1 的完全开放复制版

img.ai专栏系列之- ASR系列3 – ASR 模型如何工作

ASR系列2 – 2024年最佳ASR框架

ASR系列1 – 主流开源ASR框架介绍

马斯克放大招-Grok3 模型性能表现碾压Deepseek

发表回复