MMBench是一个针对多模态大模型的全面评测体系,旨在系统评估模型在多种任务和模态下的综合能力。
CMMLU是一个专为大语言模型设计的综合性中文评估基准,涵盖多个维度的测试任务,帮助开发者和研究人员全面了解模型的中文能力表现。