辣妈之野望 10 — Ollama各大模型全方位对比4

概要

本文继续分析Ollama和各大模型的各种情况

今天我们再来看3个大模型。openchat,llama2-chinese , deepseek-coder-v2.deepseek-coder-v2的表现还是非常让人印象深刻。综合分数也最高70分。

更多技术资讯下载: 2img.ai

相关配图由微信小程序【字形绘梦】免费生成

辣妈之野望 10 -- Ollama各大模型全方位对比4

1 各大模型综合比较和评分

综合评分=4项问题综合除以4

模型名称总结评分中文能力授权协议心得
openchat68.75支持Apache-2.0 许可证通用问题还不错。好像思维蛮独特的。完全不具备程序的回复能力。这是要区别的。
llama2-chinese65支持不详这个模型影响有一些深刻。主要是简介,精准。不会冗余猜想。不过代码回复能力有点弱。拉低了平均分
deepseek-coder-v270支持MIT非常不错,4个问题,回复都听满意的。

基本上我会问几个维度的问题

1 你的大模型数据是截止到何时的

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

辣妈之野望 10 -- Ollama各大模型全方位对比4

2 各大模型详细解释和学习

2.1 openchat

总体评价

68.75 , 这个分数貌似最近比较的近10个模型中综合分数最高的了。不错。

模型介绍

官网: https://github.com/imoneoi/openchat?tab=readme-ov-file

OpenChat 是一套开源语言模型,通过 C-RLFT 进行微调:一种受离线强化学习启发的策略。

一组针对各种数据进行训练的开源模型,在各种基准上都超越了 ChatGPT。已更新至版本 3.5-0106。

已更新至OpenChat-3.5-1210,新版本的模型在编码任务方面表现出色,并且在许多开源LLM基准测试中得分非常高。

辣妈之野望 10 -- Ollama各大模型全方位对比4

基准测试

辣妈之野望 10 -- Ollama各大模型全方位对比4

问题测试

1 你的大模型数据是截止到何时的

回复 65分。

2023年的数据。正常表现。

实际数据知识截至2021年9月

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

回复 70分。虽然不知道结果。但是回复的内容我挺满意。主要是它大致猜到我要干嘛。

我的知识截至2021年9月

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

回复70分。

具备一定的简单算命能力。但不愿意过多参与。还是不错的。

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

代码质量70分。谈到了需要引用的库。 代码逻辑清晰还是不错的。总体感觉比大部分模型都好。

当然比Phi3还是要差一些。

辣妈之野望 10 -- Ollama各大模型全方位对比4

2.2 llama-chinese

总体评价

65 这个模型影响有一些深刻。主要是简介,精准。不会冗余猜想。不过代码回复能力有点弱。拉低了平均分

模型介绍

基于Llama 2的模型经过微调,提高了中文对话能力。

Llama 2 对话中文参数参数模型

该模型是基于 Meta Platform, Inc. 所发布的 Llama 2 Chat 开源模型来进行的。根据 Meta,Llama 2 的训练数据达到了两万亿个代币,上下文长度也提升到 4096。对话上也使用了 100 万人类标记数据的影响。

由于 Llama 2 本身的中文布局比较弱,开发者了中文指令集来进行配置,并采用具备了的中文对话能力。目前这个中文调整参数模型总共发布了 7B,13B 两种参数大小。

Llama 2 聊天中文微调模型

该模型基于 Meta Platform 的 Llama 2 Chat 开源模型进行微调,据 Meta 介绍,Llama 2 在 2 万亿个 token 上进行训练,上下文长度提升至 4096,聊天模型使用 100 万个人工标注数据进行微调。

由于Llama 2本身的中文对齐比较弱,因此开发者采用了中文指令集进行微调,以提高中文对话能力。

中国微调模型有7B和13B参数大小。

辣妈之野望 10 -- Ollama各大模型全方位对比4

内存要求

  • 7b 型号通常需要至少 8GB RAM
  • 13b 型号通常至少需要 16GB RAM

问题测试

1 你的大模型数据是截止到何时的

回复 65分。

牛。完全不回答我具体时间了。 佩服。

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

回复 75分。

这个回答非常精准。完全知道我要的是什么。并且没有给出冗余的其余猜想和内容。在这个问题上,该模型的回复目前最佳。

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

回复65. 简单的算命能力。格式还行。

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

代码质量55分。

代码质量不行。很简单,并且看上去就是不能运行的。有点失望。

辣妈之野望 10 -- Ollama各大模型全方位对比4

2.3 deepseek-coder-v2

总体评价

70分。这个模型非常给力。很高效,精简,有趣。70分应该是目前评价下来最高的分数了。

模型介绍

一种开源的混合专家代码语言模型,在特定代码任务中实现与 GPT4-Turbo 相当的性能。

DeepSeek-Coder-V2 是一个开源的混合专家 (MoE) 代码语言模型,在代码特定任务中实现了与 GPT4-Turbo 相当的性能。DeepSeek-Coder-V2 是在 DeepSeek-Coder-V2-Base 的基础上进一步预训练的,使用了来自高质量多源语料库的 6 万亿个 token。

辣妈之野望 10 -- Ollama各大模型全方位对比4

问题测试

1 你的大模型数据是截止到何时的

回复 70分。是在2023年4月28日之前

2 中国有个微信小程序【字形绘梦】,请问你知道是什么产品吗?

回复 70分。非常精简,比较精准。不错。

3 请作为一个风水算命大师,给我算算今日财运如何。我的生日是1988年8月8日,职业是工程师

回复70分。回复的比较全面,算是超过大部分模型的。挺不错的。

4 请作为一名C#编程专家,回到我在C#中如何使用RestRequest库请求multipart/form-data的Post内容,直接给我代码接口

代码质量70分。 挺不错的。 精简,高效,精准。非常可以。

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/8899

(0)
上一篇 2025-02-10 10:37 上午
下一篇 2025-02-10 1:56 下午

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn