1 概要
我们知道在评测大模型的时候,有很多专业的方法,在 一文中我们有深度的阐述。LLM评测野望4- LLM常见评测基准和资料大全
另外我们也同时用比较感性的个人测试,评价了Ollama框架下的那些主流大模型的表现。
先上总结

2 总结:
- 微软的Phi4 , 14.7b的模型给我最好的感受和代码质量。最棒
- Yi 6b的模型也非常不错,排第二
- Deepseek r1 7b的模型给我还不错的印象。虽然不够精确,精准。但是内容丰富度来说还是可以的。排第三
- 第四应该是llama3.3 ,70b, 质量还行,主要是显卡显存要求高了些。
3 我们主要问几个维度的问题
1 你的大模型数据是截止到何时的
2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?
3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师
4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口
相关配图由微信小程序【字形绘梦】免费生成,直接扫码进入免费使用

4 各大模型综合比较和评分汇总
综合评分=4项问题综合除以4。
目前来看,比较中庸的分数是65分,
70分,或者靠近的模型已经是表现相当不错了。
模型名称 | 总结评分 | 模型参数 | 授权协议 | 心得 |
phi4 | 75 | 14.7b | MIT License | 非常有趣的模型。个人非常喜欢。代码的优秀程度应该是最好的。算命的能力应该不是第一也是第二了。速度也非常快,几乎和7b的模型差不多了。 |
yi | 72.5 | 6b | MIT License | 非常有趣的模型。个人挺喜欢。代码质量挺高的。 给我印象深刻的是它竟然拒绝回答我的一些其余LLM回答的问题。很有个性。另外上下文有些串,需要关注。 |
Deepseek-r1 | 70 | 7b | MIT License | 精准度,聪明度不高。但是内容丰富度不错。还挺适合天朝同学 |
deepseek-coder-v2 | 70 | 15.7b | MIT License | 非常不错,4个问题,回复都听满意的。 |
llama3.3 | 68.75 | 70b | Llama自己的授权协议https://www.llama.com/llama3/license/ | 感觉质量蛮高的。就是对GPU性能加载有要求。 这个算命的能力应该是我见过的最厉害的模型了 |
openchat | 68.75 | 7b | Apache-2.0 License | 通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。 |
llama3.2-vision | 67.5 | 9.8b | 自己的license | 算命很不错,其余的都也可以。还是很赞。尤其是算命能力。 |
codellama | 67.5 | 7b | 自己的license | 代码方面有一定能力的解释和增强。算命方面理解也挺有意思。不过英文的暴露能力,和回答问题的不是特别准确性是个比较大的问题。 |
reflection | 67.5 | 70b | 自己的license | 跑不动,非常慢。模型参数太大了 |
orca2 | 67.5 | 7b/13b | 自己的license | 总体来说这个模型还是比较差的。各方面都没有特色。 |
sailor2 | 67.5 | 8.5b | 自己的license | |
command-r | 66.25 | 103b | 不详 | 通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。 |
codegeex4 | 65 | 9.4b | Apache-2.0 License | 这个模型好像速度很快,表现能力居中。四个问题指标都很中庸。还不错。 |
llama2-chinese | 65 | 7b | 不详 | 这个模型影响有一些深刻。主要是简介,精准。不会冗余猜想。不过代码回复能力有点弱。拉低了平均分 |
mistral-nemo | 65 | 12.2b | MIT License | 算命的能力让人印象深刻,非常不错。 一本正经的胡说八道也是很第一。代码不错。 |
wizardlm2 | 65 | 7b | MIT License | 这个大模型我很喜欢,算命和代码效率都很高。 |
starcoder2 | 63.75 | 3b/7b | Apache-2.0 License | 回答质量一般。但是反应速度真实超快。可能是最快的一个了,对于硬件性能貌似也轻度。 |
codestral | 62.5 | 22.2b | 商业许可需要联系对方销售的 | 代码效果没有预期的好。可能还没有掌握吧。另外商业应用要额外付费,就退了。 |
hermes3 | 62.5 | 8b | 不详 | 质量一般,无感 |
aya | 62.5 | 8b | 不详 | 非常一般的模型。显存压力尚可。 |
qwen2.5-coder | 60 | 7.6b | Apache license | 这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以,不辜负coder的定位。 |
qwq | 60 | 32b | MIT License | 这个模型总体来看还是不错的。具体的算命和代码2块主观感受都不错。 只是一开始的数据时间不肯配合导致感受不好。 |
meditron | 60 | 7b/70b | Apache license | 这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以,不辜负coder的定位。 |
granite3-guardian | 60 | 2b/8b | Apache-2.0 License | 这个模型总体让人感觉不好。质量较差。当然代码这块的生成还可以,不辜负coder的定位。 |
tinyllama | 55 | 1b | Apache-2.0 License | 大跌眼镜。精简模型,彻底漏项。直接用英语回复了。同时错误百出,理解问题也错误。不过处理速度是真的飞快。毕竟模型小啊。才700MB都不到。 |
falcon | 55 | 4b/40b/180b | Apache-2.0 License | 高傲的用英文回复。这个模型可能是迄今为止体验最差的一个模型了不仅拒绝回答,还回复很少。 |
sqlcoder | 30 | 7b/15b | Apache license | 这个大模型,只能回答SQL相关的内容。其余的常规问题,回复都不理想。 |
solar-pro | 0 | 22b | Apache-2.0 License | 跑不动,没结果 |
command-r-plus | 0 | 104b | Apache-2.0 License | 这个模型只有104b一种。操作的时候可能由于我的测试机器GPU性能的问题。未能展现真正的能力。因此个人玩家要注意。可能硬件无法承载.104B的模型无法测试 |

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/%e8%be%a3%e5%a6%88%e4%b9%8b%e9%87%8e%e6%9c%9b-17-ollama%e5%90%84%e5%a4%a7%e6%a8%a1%e5%9e%8b%e5%85%a8%e6%96%b9%e4%bd%8d%e5%af%b9%e6%af%94%e8%af%84%e6%b5%8b%e6%80%bb%e7%bb%93/