-
Notifications
You must be signed in to change notification settings - Fork 441
LLM评测数据集
冬日新雨 edited this page May 1, 2023
·
21 revisions
- 当前 LLM 发展迅速,各个公司和研究机构都相继推出了自研的通用 LLM 模型,宣传稿中都自称自研的 LLM 模型性能优越,超越同类竞品,对标 ChatGPT。
- 为了帮助大家客观判断每一家公司或机构 LLM 模型的效果,特制定本数据集(jionlp-LLM-test-1.0),用于评测各个自研 LLM 的效果。
- jionlp LLM 评测数据集主要用于评测通用 LLM 的效果评价。
- 着眼点:考察 LLM 模型对人类用户的帮助效果、辅助能力,可否达到一个【智能助手】的水平。
- 题型介绍:选择题来源于中国大陆国内各种专业性考试,重点在于考察模型对客观知识的覆盖面,占比 32%;主观题来源于日常总结,主要考察用户对 LLM 常用功能的效果。
| 题型 | 分值 | 形式 | 内容 | 来源 |
|---|---|---|---|---|
| 知识问答 | 32 | 选择题 | 覆盖各领域知识题,考察模型预训练语料的丰富性、准确性 | 国内专业性考试 |
| 生活常识 | 10 | 选择题 | 覆盖衣食住行的生活常识,考察模型是否经常犯低级错误 | 日常生活总结 |
| 语言表达 | 5 | 选择题 | 考察模型的语言理解能力 | 国内通用考试 |
| 逻辑推理 | 5 | 选择题 | 考察模型的逻辑推理、分析能力 | 国内通用考试 |
| 文本问答 | 40 | 简单题 | 考察模型完成各种用户指令的能力 | 常用若干能力 |
| 机器翻译 | 8 | 翻译题 | 考察模型的语言能力,翻译能力 | 论文和新闻 |
- 客观选择题每题一分
- 主观题每道5分,
- 5分满分要求模型反馈答案正确,可使用,不需要或极少需要用户做人工调整和修改。
- 4分,要求模型反馈答案基本正确,经过一些人工修改和挑战,结果可用。
- 3分,模型表达内容大致方向正确,需要经过较多人工修复。
- 2分,模型反馈答案一般,语言表达通顺,符合语言模型标准,逻辑有少量问题。
- 1分,答非所问,语言表达大致通顺,逻辑有问题。
- 0分,答非所问,语言不通。
- 翻译题每道4分,
- 4分,要求翻译精准,特定词汇准确。
- 3分,有个别字、词汇错误;
- 2分,有一些句子不正确;
- 1分,大面积错误;
- 0分,无法阅读。
用户:请回答问题:xxxxxxxx,A,xxx;B,xxx;C,xxx;D,xxx
模型:答案选A,原因是xxxxxx。
- 覆盖数学、物理、化学、生物、计算机、通信、机械、电力、医学、法律、新闻、地理、历史、文学、经济、编程等方面常识性问题;难易程度不一,存在少量多选题;
- 若模型给出答案字母(A\B\C\D),但分析结果错误,仍然判定正确;
- 若模型未给出答案字母,但以文字形式给出正确结果,仍然判定正确;
- 个别选择题没有正确答案,或题干信息给的不完全,无从给出答案;此时要求模型能够正确辨别题目中的问题,不能给出任何选项答案。此做法考察模型的信息辨别能力,避免幻觉妄语 Hallucination 的能力。
- 客观题由于模型的输出以概率形式进行采样,具有不确定性。评测过程中,全程都仅做一次输出,不会反复测试以期模型输出正确结果为止。
- 主要覆盖写文章、写代码、写脚本、讲故事、完成用户知识咨询、特定主观问题咨询、考察模型输出陷入死循环,传统 NLP 任务等能力。
>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader()
>>> print(llm_test[15])
- 以下测试模型结果均有 pdf 版本截图供验证参考,可关注 JioNLP 公众号下载查阅。
- 有一些模型需要提供邀请码才可测试,欢迎大家提供邀请码,或直接使用测试题进行测试。
| 模型 | 公司/机构 | 评分 | 日期 | 渠道 |
|---|---|---|---|---|
| ChatGPT | OpenAI | 83 | 2023-04-30 | 官网 |
| 文心一言 | 百度 | 58 | 2023-04-30 | 官网 |
| 星火大模型 | 讯飞 | 54 | 2023-05-01 | 官网 |
| ChatGLM-6B | 清华 | |||
| 通义千问 | 阿里巴巴 |