LLM评测野望1-chatbot arena

稻草人 • 2025-02-13 10:51 上午 • LLM之野望 • 阅读 198

Chatbot Arena 是一个众包 AI 基准测试的开放平台，由加州大学伯克利分校SkyLab和LMArena的研究人员托管。

官方站点：https://lmarena.ai

这里可以看到评测的排名榜

在 Ramendeus，我们专门评估 LLM 绩效，以确保它们在不同指标上表现出色并获得高基准分数。凭借通过监督微调和 RLHF 为基础 LLM 公司改进模型的丰富经验，我们拥有帮助您取得卓越成果的专业知识。

相关配图由微信小程序【字形绘梦】免费生成

价格分析

它的主要一些功能

如下图中，你可以选择任意2个大模型，然后分别用问题和她们沟通。然后根据你自己的感受针对她们的回复，进行打分评价。从而让平台最终分析到大用户数据下的表现。

坦白讲，我之前一段时间还在想能否用open webui做大这样的功能。非常有用。

这个平台使用的核心 fastchat 开源地址：

https://github.com/lm-sys/FastChat

主要介绍：

FastChat 是一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。

FastChat 的核心功能包括：

RA/SD 衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/9037