旷野之间12 – 内容创作用的最佳大模型评测

旷野之间12 - 内容创作用的最佳大模型评测

我正在做一个项目,需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型,阅读了其他人对这些模型的评价,查看了顶级 LLM 的模型卡,在没有明确答案后,我决定对所有这些 LLM 进行测试,以完成不同的内容创作任务。

评估模型

我想要评估的模型(考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名):

  1. 骆驼-3–70b
  2. Mixtral-8x7B
  3. 双子座 1.5 专业版
  4. 克劳德 3 十四行诗

以下是我所做的……

首先,我将内容创作领域分为 5 种不同的用例:

  1. 博客写作
  2. 电子邮件写作
  3. 文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
  4. 写剧本
  5. 内容摘要

在每个用例中,我创建了多个类别,它们要么是子用例,要么是该用例流程的步骤。

每个用例如下所示:

旷野之间12 - 内容创作用的最佳大模型评测

简单的评估框架

1. GPT-4 Turbo 将担任第一位评委,根据我根据用例编写的评估提示,对每个答案进行满分 10 分的评分。

2.我本人担任第二位评委。

3. 每位评委将对答案进行满分 10 分的评分

4. 最终得分为两次得分的平均数。

制作和策划提示

在扩展每个用例的类别后,我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示,我知道如果我是唯一一个评估这些 LLM 的回复的人,那将是非常有偏见和不可靠的,所以我和那里最好的 LLM 联手了gpt-04-turbo

现在,

  1. 每个类别的创建提示
  2. 每个类别的评估提示

评估将由另一个 LLM 进行,我知道这听起来很奇怪,但像MT-Bench这样的基准(请注意,这个评估与 MT-Bench 相差甚远)也使用强大的 LLM 作为评判者来自动化评估过程。

为了策划创作提示,我使用了提示工程技术,例如人员采用、明确的指示、思考时间和分隔的参考文本。

例如,

社交媒体文案提示:假设您是一家精品咖啡店的社交媒体经理,这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子:— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡。— 宣传即将举行的现场音乐晚会,突出舒适的氛围和优质的咖啡。— 分享客户对他们最喜欢的咖啡和学习场所的评价。确保每篇帖子都引人入胜,使用对话语气,并包含可提高知名度和推动互动的主题标签。

评估提示也使用了类似的技术和框架进行评估。我将每个评估标准分为 5 个部分,每个部分价值 2 分,部分满足标准则进行部分评分。

例子:

社交媒体文案回应评估提示:您是一位专业的文案撰稿人和编辑。请根据以下标准对以下社交媒体文案(下面用三重引号括起来)进行评分(满分 10 分),其中每点 2 分,如果大纲未能完全捕捉到该要素,则给 0 分,如果部分涵盖该要素,则给 1 分,如果完全涵盖该标准的所有本质,则给 2 分:评估社交媒体文案的以下要素:— **相关性**:内容是否与当前趋势、热门标签和受众兴趣相符?— **对话语气**:文案是否使用友好、随意的语气,引起社交媒体用户的共鸣?— **视觉影响力**:文案是否提到使用图像、视频或 GIF 等引人入胜的视觉效果来提高参与度?— **简洁性**:文案是否简短、简洁、一目了然?— **可分享性**:内容是否以鼓励点赞、分享和评论的方式制作,以扩大影响力? “““{文本}”””

所有 22 个类别均已完成此操作。

生成与评估

现在到了生成和评估响应的时候了。

  • 我使用Groq来评​​估 Llama-3–70b 和 Mixtral-8x7B。
  • Google Vertex 的 AI Studio 将评估 Gemini 1.5 Pro 和
  • Anthropic 的工作台和聊天来评估他们的 Claude 模型。

为了评估,我使用了gpt-4-turbo默认使用的 chatgpt。

以下是我得到的结果(按类别划分):

1.博客写作

GPT的评估分数:

旷野之间12 - 内容创作用的最佳大模型评测

我的分数:

旷野之间12 - 内容创作用的最佳大模型评测

然后将以上两个分数的平均数作为最终得分:

旷野之间12 - 内容创作用的最佳大模型评测

博客写作评测 — Llama-3–70B

旷野之间12 - 内容创作用的最佳大模型评测

Llama-3–70b 凭借其非常详尽的提纲、从参考文本中学习的能力和高质量的文本生成能力获得了 48.5 分,成为获胜者。

Sonnet 和 Gemini 也给出了很好的回应,但是 Llama 的回应具有细微差别或更注重细节,这是人们在阅读现实世界文本时所寻找的。

2. 电子邮件写作

这是一个有点令人失望的类别,部分原因是提示,我应该投入更多精力来制作更详细的电子邮件提示,但是,它们对所有人来说都是一样的,所以让我们看看结果:

GPT 分数:

旷野之间12 - 内容创作用的最佳大模型评测

我的分数:

旷野之间12 - 内容创作用的最佳大模型评测

最终得分:

旷野之间12 - 内容创作用的最佳大模型评测

电子邮件写作判决——Llama-3–70B

旷野之间12 - 内容创作用的最佳大模型评测

在这里,Llama-3–70b获得了41.5 分(满分 50 分),表现优于其竞争对手,但我对其质量和现代电子邮件写作习惯并不太满意,在现代电子邮件写作习惯中,我们优先考虑简洁和直接的回复,但考虑到提示,它们表现得相当不错。

3. 文案

在文案撰写方面,所有模特都表现得相当不错。

GPT 分数:

旷野之间12 - 内容创作用的最佳大模型评测

我的分数:

旷野之间12 - 内容创作用的最佳大模型评测

最终得分:

旷野之间12 - 内容创作用的最佳大模型评测

文案点评——Llama-3–70B

旷野之间12 - 内容创作用的最佳大模型评测

llama-3的质量和遵循指令的能力都很不错。它抓住了提示中的每个小细节,因此不仅在 GPT 评估中得分很高,而且我还发现副本更加详细、结构化、连贯和有吸引力。

4. 剧本创作

GPT 分数:

旷野之间12 - 内容创作用的最佳大模型评测

我的分数:

旷野之间12 - 内容创作用的最佳大模型评测

最终得分:

旷野之间12 - 内容创作用的最佳大模型评测

剧本创作评价——Llama-3–70b

旷野之间12 - 内容创作用的最佳大模型评测

所有模型在制作初稿时都表现得相当好,但需要很大的改进才能跟上另一位作者的写作风格,这是我这次错过的但肯定会检查的。

我们有 3 名获胜者。Llama-3–70B、Claude-3-Sonnet 和 Gemini 1.5 Pro。

5. 内容摘要

这是我手头上最重要的任务之一,结果如下:

GPT 分数:

旷野之间12 - 内容创作用的最佳大模型评测

我的分数:

旷野之间12 - 内容创作用的最佳大模型评测

最终得分:

旷野之间12 - 内容创作用的最佳大模型评测

内容摘要评测 — Claude 和 Gemini 1.5 Pro

旷野之间12 - 内容创作用的最佳大模型评测

我对 Claude 模型生成的摘要质量感到惊讶。Claude Sonnet 和我也尝试过 Claude 3 Opus(他们最好的模型,但非常昂贵),Opus 的摘要结构严谨、注重细节,并尽可能地抓住了文档的精髓。经过微调后,这些模型的表现绝对非常好。

旷野之间12 - 内容创作用的最佳大模型评测

获胜者:Gemini 1.5 Pro 和 Claude 3 Sonnet

最终获胜者 — Llama-3–70b

Llama-3–70b的总分为199.5 分(满分 220 分),整体而言,其内容创作表现优异。

  • Claude 3 Sonnet 得分:191.25。总结和剧本写作方面表现良好。
  • Gemini 1.5 Pro 得分:194。总结和脚本写作能力出色。
  • Mixtral 8x7b 得分:181.5。有点不合适,最好试试 Mixtral 8x22b。

RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/3869

Like (0)
Previous 2024-07-11 9:58 上午
Next 2024-07-11 10:11 上午

相关推荐

发表回复

Please Login to Comment
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn