Chatbot Arena 是一个众包 AI 基准测试的开放平台,由加州大学伯克利分校SkyLab和LMArena的研究人员托管。
官方站点:https://lmarena.ai
这里可以看到评测的排名榜


在 Ramendeus,我们专门评估 LLM 绩效,以确保它们在不同指标上表现出色并获得高基准分数。凭借通过监督微调和 RLHF 为基础 LLM 公司改进模型的丰富经验,我们拥有帮助您取得卓越成果的专业知识。
相关配图由微信小程序【字形绘梦】免费生成

价格分析

它的主要一些功能
如下图中,你可以选择任意2个大模型,然后分别用问题和她们沟通。然后根据你自己的感受针对她们的回复,进行打分评价。从而让平台最终分析到大用户数据下的表现。

坦白讲,我之前一段时间还在想能否用open webui做大这样的功能。非常有用。
这个平台使用的核心 fastchat 开源地址:
主要介绍:
FastChat 是一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。
- FastChat 为 Chatbot Arena提供支持,为 70 多名法学硕士提供超过 1000 万次聊天请求服务。
- Chatbot Arena 从 LLM 并肩战斗中收集了超过 150 万张人工投票,以编制在线LLM Elo 排行榜。
FastChat 的核心功能包括:
- 最先进模型(例如 Vicuna、MT-Bench)的训练和评估代码。
- 具有 Web UI 和与 OpenAI 兼容的 RESTful API 的分布式多模型服务系统。
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9037