-
Notifications
You must be signed in to change notification settings - Fork 441
LLM评测数据集
冬日新雨 edited this page Jun 16, 2023
·
21 revisions
- 当前 LLM 发展迅速,各个公司和研究机构都相继推出了自研的通用 LLM 模型,宣传稿中都自称自研的 LLM 模型性能优越,超越同类竞品,对标 ChatGPT。
- 为了帮助大家客观判断每一家公司或机构 LLM 模型的效果,特制定本数据集(jionlp-LLM-test-1.0),用于评测各个自研 LLM 的效果。
- jionlp LLM 评测数据集主要用于评测通用 LLM 的效果评价。
- 着眼点:考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader()
>>> print(llm_test[15])
- 以下测试模型结果均有 pdf 版本截图供验证参考,可关注 【JioNLP】 公众号下载查阅。
- 有一些模型需要提供邀请码才可测试,欢迎大家提供邀请码,或直接使用测试题进行测试。
| 模型 | 公司/机构 | 评分 | 日期 | 渠道 |
|---|---|---|---|---|
| GPT4 | OpenAI | 86 | 2023-05-22 | 官网 |
| ChatGPT3.5 | OpenAI | 82 | 2023-04-30 | 官网 |
| 文心一言 | 百度 | 59 | 2023-04-30 | 官网 |
| 星火大模型 | 讯飞 | 55 | 2023-05-01 | 官网 |
| ChatGLM-6B | 清华 | 45 | 2023-05-15 | 开源Git本地部署 |
| 通义千问 | 阿里巴巴 | |||
| 360 | 智脑 | 68 | 2023-05-22 | 官网 |
| Anthropic | Claude-Instant | 66 | 2023-05-31 | Poe网站 |
| 昆仑万维 | 天工 |