LLMEval3是一个由复旦大学NLP实验室推出的综合性大模型评测基准平台,旨在为研究人员和开发者提供科学、系统的评估工具和标准。
MMBench是一个针对多模态大模型的全面评测体系,旨在系统评估模型在多种任务和模态下的综合能力。
C-Eval是一个专注于中文基础模型全面评估的权威工具套件。