LLM评测野望1-chatbot arena

Chatbot Arena 是一个众包 AI 基准测试的开放平台,由加州大学伯克利分校SkyLab和LMArena的研究人员托管。

官方站点:https://lmarena.ai

这里可以看到评测的排名榜

LLM评测野望1-chatbot arena
LLM评测野望1-chatbot arena

Ramendeus,我们专门评估 LLM 绩效,以确保它们在不同指标上表现出色并获得高基准分数。凭借通过监督微调和 RLHF 为基础 LLM 公司改进模型的丰富经验,我们拥有帮助您取得卓越成果的专业知识。

相关配图由微信小程序【字形绘梦】免费生成

LLM评测野望1-chatbot arena

价格分析

LLM评测野望1-chatbot arena

它的主要一些功能

如下图中,你可以选择任意2个大模型,然后分别用问题和她们沟通。然后根据你自己的感受针对她们的回复,进行打分评价。从而让平台最终分析到大用户数据下的表现。

LLM评测野望1-chatbot arena

坦白讲,我之前一段时间还在想能否用open webui做大这样的功能。非常有用。

这个平台使用的核心 fastchat 开源地址:

https://github.com/lm-sys/FastChat

主要介绍:

FastChat 是一个用于训练、服务和评估基于大型语言模型的聊天机器人的开放平台。

  • FastChat 为 Chatbot Arena提供支持,为 70 多名法学硕士提供超过 1000 万次聊天请求服务。
  • Chatbot Arena 从 LLM 并肩战斗中收集了超过 150 万张人工投票,以编制在线LLM Elo 排行榜

FastChat 的核心功能包括:

  • 最先进模型(例如 Vicuna、MT-Bench)的训练和评估代码。
  • 具有 Web UI 和与 OpenAI 兼容的 RESTful API 的分布式多模型服务系统。

RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/9037

(0)
上一篇 2025-02-13 10:50 上午
下一篇 6天前

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn