FlagEval(天秤)由智源研究院将联合多个高校团队打造,是一种采用“能力—任务—指标”三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。该平台已提供了30多种能力、5种任务和4大类指标,共600多个维度的全面评测,任务维度包括22个主客观评测数据集和84433道题目。
数据统计
数据评估
关于FlagEval特别声明
本站嗨次元提供的FlagEval都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由嗨次元实际控制,在2025-03-21 10:24收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,嗨次元不承担任何责任。