2025年10月10日,欧盟委员会联合研究中心(JRC)发布《通用人工智能(GPAI)模型分类框架》报告。作为《欧盟人工智能法案》(以下简称《AI 法案》)配套的关键外部科学研究成果,该报告首次提出一套基于认知能力量化的GPAI模型评估方法论,为法案中GPAI模型的界定、监管义务落地提供可操作的技术标准。
《AI 法案》于2024年8月1日正式生效,明确将GPAI模型定义为 “通过大规模自监督方式训练、具备显著通用性、能胜任多种任务且可集成至下游系统的 AI 模型”,并要求 2025年8月2 日起,GPAI 模型及存在系统性风险的GPAI模型需履行特定合规义务。然而,法案生效初期,“如何量化通用性”“怎样判定‘胜任多种任务’” 等关键问题缺乏技术标准答案。报告核心目标是将《AI 法案》中GPAI模型的抽象定义,转化为可测量、可复现的评估指标,确保监管既不阻碍 AI 创新,又能保障人类健康、安全与基本权利。
框架突破传统“单一性能指标评估”模式,借鉴认知心理学中的卡特尔-霍恩-卡罗尔(CHC)智力理论,结合 AI 技术特性,筛选出四大核心认知领域作为GPAI模型评估的核心维度,覆盖 AI 通用能力的关键场景:
注意力与搜索(AS):模型在数据流中聚焦关键信息、筛选目标内容的能力,是完成信息检索、任务定位的基础;
理解与组合表达(CE):细分为语言理解(CEc)与语言表达(CEe),评估模型对自然语言或语义表征的理解、观点生成与表达能力,直接关联文本创作、对话交互等任务;
概念化、学习与抽象(CL):模型从实例中归纳规律、通过指令或演示学习、积累不同抽象层级知识的能力,决定其适应新任务的灵活性;
定量与逻辑推理(QL):包含逻辑推理(QLl)与定量推理(QLq),衡量模型处理数值信息、推导逻辑结论、解决概率与反事实问题的能力,是数学计算、决策分析的核心支撑。
为确保评估公平性,框架特别强调“模态适配”原则——针对文本、图像、音频等不同输入输出模态的 AI 模型,需设计对应模态的测试任务。例如,文本模型通过文字推理题评估逻辑能力,音频模型则通过语音指令解析任务验证同类能力,单一模态达标即可认定该领域合格。
为了精准衡量模型在四大领域的能力水平,框架引入“带注释的需求水平(ADeLe)”评估程序,通过三大步骤实现量化评估:
任务需求标注:基于标准化评分准则,用 AI 模型(或人工辅助)标注测试任务对四大领域的需求强度,形成 “需求谱”。例如,一道数学题可能对 “定量推理” 需求为 “高”,对 “注意力与搜索”需求为“中”;
模型能力测绘:让AI模型完成标注后的测试任务,通过“主体特征曲线”分析模型在不同需求强度下的成功率,以“50% 成功率对应的需求水平”作为模型在该领域的能力得分;
通用性综合计算:提供两种得分聚合方式——若采用“平均值法”,可通过算术平均(侧重整体表现)、几何平均(平衡各领域)或调和平均(惩罚短板领域)计算综合得分;若采用“阈值法”,则设定各领域合格线,模型满足一定数量领域达标即可认定具备通用性。
报告指出,ADeLe 方法已通过 1.6 万余个高质量任务实例验证,自动化标注准确率经人类评审校准,预测模型性能的 AUROC(受试者工作特征曲线下面积)普遍达到 0.85 以上,兼顾科学性与评估效率。
为验证框架有效性,研究团队对GPT系列、LLaMA系列、DeepSeek-R1-Dist-Qwen系列等主流 LLM 模型展开测试,得出多项关键结论:
算力与能力呈正相关:模型参数规模、训练算力(FLOP)越大,四大领域能力得分普遍越高,但不同领域提升速率不同——“理解与组合表达”能力随算力增长提升较快,“定量与逻辑推理”能力则需更大算力投入才会显著进步;
阈值设定影响监管范围:若将 ADeLe得分3.0设为合格线,较多中小规模模型(如 LLaMA-3.2-11B-Instruct)会被纳入GPAI范畴;若提高至4.0,仅 GPT-4o、OpenAI o1等顶尖模型符合标准;若设定4.5以上,仅极少数最先进模型达标;
领域达标规则需灵活:要求“所有领域达标”会过度限制模型(部分优秀模型可能因单一领域短板被排除),而“3/4 领域达标”的规则更符合实际,既能保障模型通用性,又能包容合理技术差异。
基于此,报告建议政策制定者根据监管目标动态调整评估参数:若侧重风险防控,可提高得分阈值、严格领域达标规则;若鼓励技术创新,可适当放宽标准,同时定期(如每1-2 年)根据AI技术进展更新测试任务与评分准则。
来源:www.tbtguide.com