LLM评测数据集

现状、背景

当前 LLM 发展迅速，各个公司和研究机构都相继推出了自研的通用 LLM 模型，宣传稿中都自称自研的 LLM 模型性能优越，超越同类竞品，对标 ChatGPT。
为了帮助大家客观判断每一家公司或机构 LLM 模型的效果，特制定本数据集（jionlp-LLM-test-1.0），用于评测各个自研 LLM 的效果。

>>> import jionlp as jio
>>> llm_test = jio.llm_test_dataset_loader()
>>> print(llm_test[15])

模型	公司/机构	评分	日期	渠道
GPT4	OpenAI	86	2023-05-22	官网
ChatGPT3.5	OpenAI	82	2023-04-30	官网
文心一言	百度	59	2023-04-30	官网
星火大模型	讯飞	55	2023-05-01	官网
ChatGLM-6B	清华	45	2023-05-15	开源Git本地部署
通义千问	阿里巴巴
360	智脑	68	2023-05-22	官网
Anthropic	Claude-Instant	66	2023-05-31	Poe网站
昆仑万维	天工