我正在做一个项目，需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型，阅读了其他人对这些模型的评价，查看了顶级 LLM 的模型卡，在没有明确答案后，我决定对所有这些 LLM 进行测试，以完成不同的内容创作任务。

评估模型

我想要评估的模型（考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名）：

骆驼-3–70b
Mixtral-8x7B
双子座 1.5 专业版
克劳德 3 十四行诗

以下是我所做的……

首先，我将内容创作领域分为 5 种不同的用例：

博客写作
电子邮件写作
文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
写剧本
内容摘要

在每个用例中，我创建了多个类别，它们要么是子用例，要么是该用例流程的步骤。

每个用例如下所示：

简单的评估框架

1. GPT-4 Turbo 将担任第一位评委，根据我根据用例编写的评估提示，对每个答案进行满分 10 分的评分。

2.我本人担任第二位评委。

3. 每位评委将对答案进行满分 10 分的评分

4. 最终得分为两次得分的平均数。

制作和策划提示

在扩展每个用例的类别后，我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示，我知道如果我是唯一一个评估这些 LLM 的回复的人，那将是非常有偏见和不可靠的，所以我和那里最好的 LLM 联手了gpt-04-turbo。

现在，

每个类别的创建提示
每个类别的评估提示

评估将由另一个 LLM 进行，我知道这听起来很奇怪，但像MT-Bench这样的基准（请注意，这个评估与 MT-Bench 相差甚远）也使用强大的 LLM 作为评判者来自动化评估过程。

为了策划创作提示，我使用了提示工程技术，例如人员采用、明确的指示、思考时间和分隔的参考文本。

例如，

社交媒体文案提示：假设您是一家精品咖啡店的社交媒体经理，这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子：— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡。— 宣传即将举行的现场音乐晚会，突出舒适的氛围和优质的咖啡。— 分享客户对他们最喜欢的咖啡和学习场所的评价。确保每篇帖子都引人入胜，使用对话语气，并包含可提高知名度和推动互动的主题标签。

评估提示也使用了类似的技术和框架进行评估。我将每个评估标准分为 5 个部分，每个部分价值 2 分，部分满足标准则进行部分评分。

例子：

社交媒体文案回应评估提示：您是一位专业的文案撰稿人和编辑。请根据以下标准对以下社交媒体文案（下面用三重引号括起来）进行评分（满分 10 分），其中每点 2 分，如果大纲未能完全捕捉到该要素，则给 0 分，如果部分涵盖该要素，则给 1 分，如果完全涵盖该标准的所有本质，则给 2 分：评估社交媒体文案的以下要素：— **相关性**：内容是否与当前趋势、热门标签和受众兴趣相符？— **对话语气**：文案是否使用友好、随意的语气，引起社交媒体用户的共鸣？— **视觉影响力**：文案是否提到使用图像、视频或 GIF 等引人入胜的视觉效果来提高参与度？— **简洁性**：文案是否简短、简洁、一目了然？— **可分享性**：内容是否以鼓励点赞、分享和评论的方式制作，以扩大影响力？ “““{文本}”””

所有 22 个类别均已完成此操作。