模型评估 - AI 智域导航

首页

登录

当前标签：模型评估

不能只算token账

不能只算token账

AI行业不能只关注token数量，而应更重视模型与产品的深度整合以及商业价值的实现。

PubMedQA

PubMedQA

PubMedQA是一个专注于生物医学领域的问答数据集及模型性能排行榜平台，致力于评估和推动自动化问答系统在专业文献理解方面的发展。

Open LLM Leaderboard

Open LLM Leaderboard

开源大模型排行榜，提供透明、公平的性能评估与对比。

Evidently AI

Evidently AI

Evidently AI是一个开源的机器学习模型监测和评估工具，帮助用户实时跟踪模型性能和数据漂移。