基准测试 - AI 智域导航

首页

登录

当前标签：基准测试

LLMEval3

LLMEval3

LLMEval3是一个由复旦大学NLP实验室推出的综合性大模型评测基准平台，旨在为研究人员和开发者提供科学、系统的评估工具和标准。

MMBench

MMBench

MMBench是一个针对多模态大模型的全面评测体系，旨在系统评估模型在多种任务和模态下的综合能力。

C-Eval

C-Eval

C-Eval是一个专注于中文基础模型全面评估的权威工具套件。