我正在做一个项目,需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型,阅读了其他人对这些模型的评价,查看了顶级 LLM 的模型卡,在没有明确答案后,我决定对所有这些 LLM 进行测试,以完成不同的内容创作任务。
评估模型
我想要评估的模型(考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名):
- 骆驼-3–70b
- Mixtral-8x7B
- 双子座 1.5 专业版
- 克劳德 3 十四行诗
以下是我所做的……
首先,我将内容创作领域分为 5 种不同的用例:
- 博客写作
- 电子邮件写作
- 文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
- 写剧本
- 内容摘要
在每个用例中,我创建了多个类别,它们要么是子用例,要么是该用例流程的步骤。
每个用例如下所示:
简单的评估框架
1. GPT-4 Turbo 将担任第一位评委,根据我根据用例编写的评估提示,对每个答案进行满分 10 分的评分。
2.我本人担任第二位评委。
3. 每位评委将对答案进行满分 10 分的评分
4. 最终得分为两次得分的平均数。
制作和策划提示
在扩展每个用例的类别后,我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示,我知道如果我是唯一一个评估这些 LLM 的回复的人,那将是非常有偏见和不可靠的,所以我和那里最好的 LLM 联手了gpt-04-turbo
。
现在,
- 每个类别的创建提示
- 每个类别的评估提示
评估将由另一个 LLM 进行,我知道这听起来很奇怪,但像MT-Bench这样的基准(请注意,这个评估与 MT-Bench 相差甚远)也使用强大的 LLM 作为评判者来自动化评估过程。
为了策划创作提示,我使用了提示工程技术,例如人员采用、明确的指示、思考时间和分隔的参考文本。
例如,
社交媒体文案提示:假设您是一家精品咖啡店的社交媒体经理,这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子:— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡。— 宣传即将举行的现场音乐晚会,突出舒适的氛围和优质的咖啡。— 分享客户对他们最喜欢的咖啡和学习场所的评价。确保每篇帖子都引人入胜,使用对话语气,并包含可提高知名度和推动互动的主题标签。
评估提示也使用了类似的技术和框架进行评估。我将每个评估标准分为 5 个部分,每个部分价值 2 分,部分满足标准则进行部分评分。
例子:
社交媒体文案回应评估提示:您是一位专业的文案撰稿人和编辑。请根据以下标准对以下社交媒体文案(下面用三重引号括起来)进行评分(满分 10 分),其中每点 2 分,如果大纲未能完全捕捉到该要素,则给 0 分,如果部分涵盖该要素,则给 1 分,如果完全涵盖该标准的所有本质,则给 2 分:评估社交媒体文案的以下要素:— **相关性**:内容是否与当前趋势、热门标签和受众兴趣相符?— **对话语气**:文案是否使用友好、随意的语气,引起社交媒体用户的共鸣?— **视觉影响力**:文案是否提到使用图像、视频或 GIF 等引人入胜的视觉效果来提高参与度?— **简洁性**:文案是否简短、简洁、一目了然?— **可分享性**:内容是否以鼓励点赞、分享和评论的方式制作,以扩大影响力? “““{文本}”””
所有 22 个类别均已完成此操作。
生成与评估
现在到了生成和评估响应的时候了。
- 我使用Groq来评估 Llama-3–70b 和 Mixtral-8x7B。
- Google Vertex 的 AI Studio 将评估 Gemini 1.5 Pro 和
- Anthropic 的工作台和聊天来评估他们的 Claude 模型。
为了评估,我使用了gpt-4-turbo
默认使用的 chatgpt。
以下是我得到的结果(按类别划分):
1.博客写作
GPT的评估分数:
我的分数:
然后将以上两个分数的平均数作为最终得分:
博客写作评测 — Llama-3–70B
Llama-3–70b 凭借其非常详尽的提纲、从参考文本中学习的能力和高质量的文本生成能力获得了 48.5 分,成为获胜者。
Sonnet 和 Gemini 也给出了很好的回应,但是 Llama 的回应具有细微差别或更注重细节,这是人们在阅读现实世界文本时所寻找的。
2. 电子邮件写作
这是一个有点令人失望的类别,部分原因是提示,我应该投入更多精力来制作更详细的电子邮件提示,但是,它们对所有人来说都是一样的,所以让我们看看结果:
GPT 分数:
我的分数:
最终得分:
电子邮件写作判决——Llama-3–70B
在这里,Llama-3–70b获得了41.5 分(满分 50 分),表现优于其竞争对手,但我对其质量和现代电子邮件写作习惯并不太满意,在现代电子邮件写作习惯中,我们优先考虑简洁和直接的回复,但考虑到提示,它们表现得相当不错。
3. 文案
在文案撰写方面,所有模特都表现得相当不错。
GPT 分数:
我的分数:
最终得分:
文案点评——Llama-3–70B
llama-3的质量和遵循指令的能力都很不错。它抓住了提示中的每个小细节,因此不仅在 GPT 评估中得分很高,而且我还发现副本更加详细、结构化、连贯和有吸引力。
4. 剧本创作
GPT 分数:
我的分数:
最终得分:
剧本创作评价——Llama-3–70b
所有模型在制作初稿时都表现得相当好,但需要很大的改进才能跟上另一位作者的写作风格,这是我这次错过的但肯定会检查的。
我们有 3 名获胜者。Llama-3–70B、Claude-3-Sonnet 和 Gemini 1.5 Pro。
5. 内容摘要
这是我手头上最重要的任务之一,结果如下:
GPT 分数:
我的分数:
最终得分:
内容摘要评测 — Claude 和 Gemini 1.5 Pro
我对 Claude 模型生成的摘要质量感到惊讶。Claude Sonnet 和我也尝试过 Claude 3 Opus(他们最好的模型,但非常昂贵),Opus 的摘要结构严谨、注重细节,并尽可能地抓住了文档的精髓。经过微调后,这些模型的表现绝对非常好。
获胜者:Gemini 1.5 Pro 和 Claude 3 Sonnet
最终获胜者 — Llama-3–70b
Llama-3–70b的总分为199.5 分(满分 220 分),整体而言,其内容创作表现优异。
- Claude 3 Sonnet 得分:191.25。总结和剧本写作方面表现良好。
- Gemini 1.5 Pro 得分:194。总结和脚本写作能力出色。
- Mixtral 8x7b 得分:181.5。有点不合适,最好试试 Mixtral 8x22b。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/3869