回归理解：数智时代教育测评的解释性立场

　　作　者：

　　袁建林，湖南大学教育科学研究院副教授、博士生导师

　　闫　慧，湖南大学教育科学研究院博士研究生

　　理解教育是教育测评的愿景，但因测评的证成逻辑而得不到落实。回归教育的理解，需要发展解释性测评。以理解为指向，解释个体内在精神世界、解释教育过程与教育关系是解释性测评的价值旨归；秉持解释主义的认识观、还原教育的客观实在与精神世界、从“事后解释”走向“同时解释”是其基本立场。解释作为理解的手段，“何以理解”依赖于“如何解释”。为此，解释性测评实践要以教育测评的社会认知模型为理论指导，借助数字技术建构动态任务情境形成解释工具，利用智能技术发展建模教育过程与关系的解释模型，针对不同实践领域采用差异化的解释逻辑。由此，提升教育测评的解释力，促进回归教育的理解。

　　教育是以理解和建构为指向的解释性过程。教育测评作为理解教育的一套工具与方法，开展对教育活动与教育主体具有解释力的评价活动，是教育测评工作的根本遵循。然而，教育测评始终秉持科学理性，以形成可靠的测量结果为根本指向，表现为一种“证成”逻辑。证成导向的教育测评不能解释学生内在心智过程与复杂的精神世界，也难以解构教育过程和教育内外部的复杂关系。尽管确证了教育事实，但难以深入理解教育。人工智能、数字技术所带来的教育测评形式与手段变革，为解释教育的发生过程与学生内在心智活动奠定坚实基础。发展具有丰富解释力的教育测评成为共识，斯特菲·波尔等人在《科学》撰文呼吁，充分利用数字化测验手段，在评价结果中同时报告包含能力及其影响因素的评价表现剖面，以此提升教育测评的解释力。本文站在解释性立场，分析教育测评从证成逻辑向解释逻辑转换的必然性，明晰解释性测评的价值旨归与基本立场，探讨解释性测评的实践路向，以期为数智时代教育测评的未来转向提供镜鉴。

　　一、从“证成”到“解释”：教育测评基本逻辑的转换

　　教育是客观存在与主观认识的统一。作为认识教育的手段，教育测评发展所历经的测量、描述、判断、建构时代的不同评价观念，凸显对教育的认识在工具理性与主体性建构的二维认识尺度之间游离。这里将教育测评所秉持的认识观归结为证成逻辑与解释逻辑。

　　1.教育测评的证成逻辑及其缺陷

　　所谓教育测评的证成逻辑，是指教育测评活动主要围绕如何形成科学有效的测评结果来展开，亦即评价是教育评价目的本身。教育测评的证成逻辑根源于实证主义哲学观，发轫于心理测量的普及，并最终发展成为教育测评实践的底层行动逻辑与主流操作范式。实证主义致力于探寻确凿无疑的知识，旨在摆脱一切臆断达到对社会事实本质的认识，强调客观、量化、有定论与可检验。实证主义要求的客观理性与对事物特征的精确“度量”，构筑了心理测量的基本精神，测量被定义为“基于规则对事物赋予数值”。科学与实证主义下的测量，关心如何对不可直接观察的潜在概念进行量化。萨缪尔·梅西克认为现代测评侧重于为推论（即测验分数）提供概念性、实质性和统计层面的支持。罗伯特·米斯莱维认为“评价是基于证据的推理”。从教育测评的经典思想来看，测评表现为一种“证成”逻辑，主要体现在：测评的根本目标在于达到对教育与心理客观属性的精确度量，测评设计着眼于明确要测评的内容；测评的过程在于提供测验任务从而诱发测验反应，从中寻找有效证据对被测内容进行有效推论；从测评实践的范畴来看，证成测评结果意味着测评工作终结，如何解释与应用测评结果似乎不在测评的核心工作范畴之内。

　　证成导向的教育测评存在缺陷。第一，重手段而轻目的，衍生测量主义倾向。从历史的角度看，教育测量崇尚科学与理性精神，力图破除对教育认识的模糊性与不确定性，是教育认识论的进步。然而，证成导向的教育测评孤立地看待需要测量的知识、技能，关注教育“是什么”而忽视教育的“为什么”，缺乏对教育价值与意义的深层次追问，将主要精力放在“如何测量”的工具性问题之上，测量手段、工具、技术、模型无限丰富，测量的内容无限拓展。特别是随着人工智能与数字技术的发展，教育主体的成绩、动机、情感、道德、责任似乎一切皆可测量，教育的过去与现状都可计算，教育的发展与学生的未来皆可预测，教育测评陷入测量主义的迷途，引发数据规训与控制的担忧。

　　第二，对教育的解释与理解相对贫乏。理解与对话是教育的生命，去体验、去经历、与教育对话，是形成对教育深层次理解的基础。然而，证成导向的教育测评以形成可靠、有效的测评结果为目标，用简单化的分数概览教育的全貌，遭受教育理论界的批评。以目标达成的可测评结果作为测评对象，以数据表现形式取代对教育目的的理解与实践，难以理解人的精神成长，也不能够理解人性的内在性、复杂性、完整性和唯一性，导致对教育价值与意义的认知简单化。数据至上的教育测评，衍生不可解释的“数字黑箱”，测评数字遮蔽教育世界的丰富性，贬抑人之精神存在。

　　2.教育测评的解释逻辑及其转换动因

　　人如何解释世界，世界就如何显现自身。解释学作为一种理解、建构人与世界关系的哲学，也是理解教育主体与教育活动、洞悉教育本质的方法论。探索生命的成长体验、理解人的精神内核、建构现实世界的价值与自由想象，是解释学的现实使命。从解释学的立场来看，人永远被“看法”左右，而不是被“事实”影响。其中，“事实”关涉客观存在，“看法”彰显主体如何解释、看待现实世界。这种关于“看法”与“事实”的区分是洞见教育测评本质、理解教育测评科学取向与人文取向分野的基本命题。“对教育事物和属性赋予数值”“基于证据的推理”是科学取向教育测评的本质阐释，其证成逻辑在于获得关于教育事物与教育属性的“事实”。在解释学看来，证成结果仅获得教育事实的孤立描绘，这种事实与价值分离，与教育过程、教育历史存在割裂。它不能反映人的精神内核，也不能支撑主体理解教育体验与教育关系、建构教育的自由意义和丰富价值，更无关理解教育的“看法”。狄尔泰说：“自然需要说明，人类需要理解。”教育测评应该关乎教育的实际体验和客观化物的双重属性，洞悉教育的内在精神世界，解释教育发生过程与教育关系，建构对教育的想象。解释视角下的教育测评不仅是建模教育客观世界的一套理性而又标准化的方法与技术，更应该赋予教育生命的张力，还原教育的丰富性、动态性、生成性。使我们不仅能解释与说明教育事实，更能建构教育的价值与意义，赋予教育的想象力和生长空间。这就是本文所说的教育测评的解释逻辑。

　　具体来说，解释性测评秉持解释主义认识论，获取教育发生的动态情境材料、建模教育过程与教育内外部的复杂关系形成解释文本，通过解释文本与多重主体的视界融合，从而促进对教育过程、教育关系与个体精神世界的理解。把握解释性测评的内涵需要明确两点。

　　第一，确证教育事实不是目的，理解教育才是教育测评的价值旨归。解释性测评超越“为事物赋予数值”“基于证据进行推论”的狭隘测评观，秉持解释主义范式，将测评视为对教育过程与学生体验的价值与意义的建构过程。

　　第二，它认同测量的科学性，但更看重对教育的解释性。测量的精准性、科学性与工具理性为理解教育提供了事实与依据，但需要将这种事实与教育的具体情境、个体的生命体验、社会文化与规范关联起来，由此才能基于事实材料建构教育的价值与意义。

　　从“证成”到“解释”，是教育测评基本范式的转变。这种转变的动力根源于理解教育的需要，也与评价思想与理论的发展、评价政策与实践的变动以及复杂测评技术的可解释性需要紧密关联。

　　其一，评价思想与理论的解释性主张。不同时代教育测评的基本主张特点鲜明。“测量”与“描述”时代推崇科学主义测评范式，以精确数字与符号刻画教育事实；“判断”秉持后现代主义色彩的价值判断；“建构”发轫于建构主义哲学，强调主体间的对话与理解、形成心理“建构物”。可以看出，测评的基本主张存在一种思想转向：从证成客观化“事实”到仰仗相对主观的“看法”实现“意义建构”。特别是，这种关照意义解释的变化趋向在评价的“解释时代”得到进一步凸显，即回应复杂教育情境的意义建构，以分层论阐释教育评价境况，以非预测性解释探究教育评价机制。

　　其二，评价政策精神与实践关于教育解释的呼唤。“唯分数”“唯升学”的批判共识，形成于评价实践对教育丰富内涵理解的渴求，并集中体现于顶层规范性评价改革政策。《深化新时代教育评价改革总体方案》提出“强化过程评价，探索增值评价”关涉教育发生过程与教育发展的解释；制定中小学办学质量评价标准旨在形成学校办学质量的丰富理解；以教育教学实绩、履行教育职责评价教师，旨在丰富教师贡献的解释；强化学生德育、体育、美育、劳动教育评价，旨在突破传统智育的单维度解释。

　　其三，复杂测评技术的可解释需要。伴随AI广泛应用于教育测评实践，测评技术复杂度提升，测评过程透明度下降，测评结果的可解释性不足。理解测评的过程与结果是教育测评工作的基本要求。因此，提升AI在教育测评工作中的计算透明性与决策的可理解性，提升智能化教育测评过程与结果的可解释性，是智能化教育测评面临的紧迫任务，也是数智时代解释性测评的核心内容。

　　二、回归理解：解释性测评的价值旨归与基本立场

　　理解是解释的目标，解释是理解的手段，发展解释性测评是达成教育理解的依托。回归教育的理解，首先需要明确“理解什么”的问题，以此明晰解释性测评的价值旨归。其次，以理解为指向，教育测评在本体论、认识论、方法论层面到底要遵循何种基本规范，才能更好地服务教育的理解，厘清该问题有助于明晰解释性测评的基本立场，为实践提供基本遵循。

　　1.解释性测评的价值旨归

　　第一，从构念到构念结构解释内在精神世界。构念也称为潜在特质、潜在能力或者建构。现代教育与心理测量围绕构念的证成而展开，通过定义构念的内涵与维度，开发能够引发构念相关心理活动的测验任务，获取构念的测评证据，再推论构念水平。在这个过程中，构念被从复杂的个体内在心智活动中独立开来，被从丰富的教育精神世界抽离出来。尽管构念被确证，但构念不足以解释个体的内在心智与精神世界的丰富性、完整性。人作为存在的主体，其自身就是一个整体，人的精神具有完整性，完整解释人的内在精神世界是解释性测评的首要任务。从测评实践来看，这首先依赖于构念结构的建立。在“证据中心的设计”测评理论中，以学生模型代替传统测评中的构念。所谓学生模型，是指旨在测量的与知识、能力以及其他心理特质相关的一个或多个变量。学生模型可以是单一构念，也可以是包含多种心智特征的构念结构，它们可以利用图模型或者其他网络模型构造成复杂的构念网络。构念结构可以提供关于个体内在精神世界的复杂关系，教育测评如果以复杂构念结构为测评基本目标，则为解释个体复杂的内在精神世界提供强有力支撑。

　　第二，从静态诊断到动态测评解释教育过程。证成导向的教育测评是对教育的静态诊断、对教育结果的确证，在评价实践中表现为结果性的考试。有学者认为，考试是相对静止的，它不能描绘教育是如何发生的，更无关教育动态生成过程的理解。狄尔泰认为，“人只能在历史中认识自己，而不是通过内省”。教育是一种蕴含唤醒、体验、对话与自我理解的动态生成过程，理解教育的意义和目标需要从历史的角度，结合特定的历史-社会情境得到界定。解释作为理解教育的方法，解释教育过程是解释性测评的重要使命。回归教育的理解，解释性测评需要回应个体内在的精神体验与教育的动态生成性。一方面，以揭示个体的生命成长体验为旨归，不仅要反映学生知识维度的增长，更需要揭示学生在教育中的意向、参与、融入、创造、体验、体悟、建构、拓展、想象等，还原教育主体的精神体验；另一方面，着重揭示教育实体的动态生成过程，立体化呈现教育系统各种要素在时间维度进化的实然状态，揭示复杂要素与教育主体融合共生的动态关系，从而回应“教育如何发展”。

　　第三，从教育知识到社会情境解释教育关系。传统教育测评通过标准化、规范化的知识与技能评测来衡量学校与教育的人才生产绩效，顺应了大规模人才生产的需要，但也衍生教育的标准化与外部世界的分离。教育如何适应愈加不确定性的外部世界，需要解放以经典知识与标准技能为核心的工具属性，重申教育的社会属性与人文价值。社会认知理论指出，人类知识产生与嵌套于社会关系之中，人类对现实、理性和价值问题的理解是在一个相互关联的过程中产生的。人作为一种社会关系的存在，总是处于特定社会情境中。基于社会认知视角，教育测评是置身社会情境的、以学生发展有价值活动能力为中心的一种证据阐释活动。这种阐释活动是对主体所处社会情境中的行为与境况的解释，一方面，寻求从特定社会文化情境中理解个体的内在精神实质及其社会关系，从而理解教育主体与他者的关系、与社会的关系，回应教育的“为什么”；另一方面，通过个体与社会互动关系中所表现出来的信念体系、文化习性、行为模式的规律性与差异性，理解外部世界所赋予的个体经验与群体行为模式的价值与意义，回应教育“应该怎样”。总体上，回归教育关系的理解，解释性测评需要将教育主体与教育测评置于特定社会文化情境之中、置于教育与外部世界的关系之中。

　　2.解释性测评的基本立场

　　第一，本体论层面以还原教育的客观实在与精神世界为目的。证成导向的教育测评旨在确证教育的客观实在，达到对模糊与不确定的教育世界的精确认识。其确证性工作逻辑和严密的数学推理逻辑凸显测评的客观性、精密性以及工具理性。尽管借助测评工具获得了教育世界有限的客观认知，但测评的工具理性分离教育事实与价值，我们难以基于测评过程与结果去还原教育世界的本来面貌，更难以回应教育应该是什么，以及阐释教育的可能性。对科学与实证主义的批判重申了人文精神的价值。伽达默尔强调，“理解即存在”，赋予解释学理解精神世界的核心使命。从这个角度来看，解释性测评需要承认测评工具理性的局限，还原教育的精神世界才是其根本。一方面，它不排斥测评的工具理性。我们不能因为认识到科学的局限性而否定科学的价值，抑制科学方法与工具的使用，对模糊的教育世界有更多精确性的认知是教育测评工作的始终追求。另一方面，关照教育的精神世界与应然状态。解释性测评不仅要关注教育中的客观存在，理解教育的实然状态，更需要回应教育应该是什么，阐释教育的可能性，从教育历程中建构对教育的理解，从教育与社会文化的复杂关系中还原教育的精神面貌，从而丰富对教育的理解。

　　第二，秉持解释主义的认识观。传统教育测评秉持实证主义的认识论，测评的确证逻辑为教育测评的科学性提供强有力的规范，但去情境化的刺激、规范化的证据链条使教育测评脱离了教育的真实世界，让还原教育的精神原貌变得困难。在解释学看来，确证世界的客观存在缺乏意义，理解才是目的。因此，教育测评不能停留于证成潜在特质、能力水平和教育事实，而应该是一个理解并不断生成的过程。为此，解释性测评需要为理解教育、还原教育的精神世界提供装置。其一，教育测评是关于教育价值与意义的建构过程。理解的核心在于价值与意义的建构。解释性测评不仅要确证教育客观事实，更需要从教育的历史、现场以及与他者的关系中赋予确证的客观事实教育意义。其二，解释性测评是关于体验与表达的生成过程。在狄尔泰看来，体验、表达是形成理解的基础，“只有当我们体验到人的状态，让这些状态在生命显示中表达出来，并且理解这些表达，人类才成为精神科学的对象”。由此，解释性测评需要创造与再现教育体验，通过教育情境的再现和教育过程的再体验，进而把握教育的真实，达成对教育精神世界的理解，促进教育测评解释力的提升。

　　第三，方法论层面从“事后解释”走向“同时解释”。在传统教育测评实践活动中，获得测评结果意味着测评工作的结束。为促进理解，人们对测评过程与结果进行各种各样的“事后分析”，比如利用测评过程数据检测异常作答行为、分析问题解决与认知策略等。这种分析相对于测验所获得的分数而言，促进对学生如何参与测验任务的理解，提升了教育测评的解释力。然而，“事后解释”发生于教育测评工作结束之后，独立于测评之外，是提升测评解释力的一种补偿。就教育测评本身而言，依然缺乏解释力。本文主张一种解释性测评范式，在方法论层面促进“事后解释”融于教育测评过程是这种新测评范式的主要考量。在目标层面，解释性测评需要突破报告一个测评分数的简单形式，同时提供测评分数及其影响因素的评价表现剖面。在形式层面，要破除复杂测评技术的“黑箱”问题，促进教育测评过程的透明性、可解释性。在方法论层面，需要超越确证教育事实的单向思维，着眼于对教育内在过程与丰富精神世界的理解。也就是说，解释性测评不仅要回答“是什么”的问题，同时要关照“为什么”“可能是什么”的问题，促进确证教育事实与解释教育世界的统一。这就是解释性测评所蕴含的“同时解释”。

　　三、何以理解：解释性测评的实践指向

　　解释作为理解的手段，“何以理解”依赖于“如何解释”，取决于解释性测评实践的落实。从“证成”到“解释”，是教育测评基本范式的转变。为此，解释性测评实践，需要思考以何种测评理论为指导，如何借助技术优势革新测评工具与方法，把握教育测评实际场域解释发生的逻辑指向，由此超越证成主义教育测评的局限，促进教育测评回归教育的理解。

　　1.以教育测评的社会认知模型为理论指导

　　以何种教育测评理论为指导，是解释性测评实践的根基。“经典测量理论”“证据中心设计”测评理论强调教育客观化物的证成，与解释性的意涵有别，社会认知理论为解释性测评提供了思想基础。从社会认知理论来看，人类社会的语言、文化以及群体交互活动具有特定模式，即“语言、文化与实质模式”，个体层面所展现的行为、事件、经验、活动、想法等是对特定语言文化模式的调适；为产生有意义的行为与活动，个体内在认知、能力、心智活动必须与特定语言文化实质模式相关联，同时又要适应特定社会、文化与现实的情境。罗伯特·米斯莱维基于社会认知理论发展了教育测评理论，并将其概括为包含三个层次的复杂适应性系统，即人际层面的LCS模式、个体层面的经验活动，以及个体内在的认知（见图1）。其核心思想在于，测评是通过特定评价实践，观察个体在特定情境中的表现，解释LCS模式或社会情境，并推论个体在相似情境中行动或学习的能力。

　　基于社会认知模型，解释性测评实践需要在理念与形式层面发生转变。其一，以解释为核心目标。解释性测评实践要超越测定某种能力的证成主义测量观，测评目标的设计在确证能力水平的同时，要围绕LCS模式阐释个体在情境中如何参与行动、交流、承担角色、塑造新的情境并创造新知识，指向LCS模式及其与个体经验、内在心智之间关系的解释，重于回答“为什么”“怎么样”，而不局限于“是什么”。

　　其二，以关系统领测评的复杂要素。传统测评具有独立性假设，任务属性、测评表现、个体认知被认为具有独立、分离的属性，被抽象成孤立的变量。社会认知理论指出，个体心智、行为活动与社会情境本质上是交织共生的，解释性测评需要通过对各层面的变量赋予“意义”，建立任务属性、测评表现、个体认知之间的关系，以关系统领测评的复杂要素，才能解释三个层面的复杂关系。

　　其三，发展动态性测评形式。意义的生成是一个动态过程，解释LCS模式及其与个体经验、内在心智之间的关系必须置于动态与多元化的社会与文化情境之中。因此，教育测评需要注重测评情境建构的动态性、多样性，通过持续的、动态的行为与活动观察来解释语言文化实质模式。

　　2.构建动态任务情境形成解释工具

　　在解释性测评中，测评任务即为解释工具。解释性测评以还原教育过程与教育关系为宗旨，必须置于动态变化的真实教育情境之中，这使得构建更具解释力的动态任务情境成为解释性测评工作的核心。从实践来看，动态任务情境的来源有两条途径。

　　一是依托数字技术构建动态、交互式的模拟任务。交互式测评已成为PISA、NAEP等大规模测评项目中常见的测评形式，是问题解决、合作、科学探究等复杂技能的测评不可或缺的工具。其模拟任务是一个动态、交互性的场域，个体在任务情境中可以展开动态的、连续的活动，为个体去体验、去经历、去表达与去创造形成依托空间，为个体与问题情境、个体与他人的交流互动提供工具性支撑。同时，以过程数据的形式记录个体在任务情境中的行为、对话、表达、创造，为解释作答者如何完成任务的过程、理解社群的LCS模式提供基础。

　　二是教学过程即为解释工具。对教学过程进行动态评估，可以深入揭示教与学的动态变化过程。从解释的视角来看，对教学过程中各类要素的动态评估，其实是关于教育过程与教育关系的全面而深入的解释过程。这种解释以真实的教学过程解释教育，教学过程即为解释工具。在实践层面，对教学过程进行数字化、数据化是解释的基础。一方面，在线学习平台完整记录的学习过程提供了便利的解释条件；另一方面，可以通过对日常课堂教学过程的数字化、数据化，获取数字化学习过程，从而形成解释工具。

　　3.面向教育过程与教育关系发展解释性模型

　　解释性测评以解释教育过程与教育关系为宗旨，传统的项目反应理论等“归纳型”测量模型存在局限，需要发展解释性测量模型，建模教育过程与复杂教育关系，从而使教育测评不仅能确证教育“是什么”，还能解释教育的“为什么”，以及“如何变化”，为理解特定教育情境中个体的精神世界与教育的动态生成过程提供基础。

　　具体来说，解释性模型的发展存在两条路径。其一，可解释人工智能模型的应用。有关时序过程的可解释AI模型常被用于学习过程与作答过程的建模。深度神经网络、知识追踪、贝叶斯网络、动态认知诊断等可解释模型，有助于挖掘从教育情境现象到内在认知的发展规律，揭示学习者认知随时间推移的演变机理。隐马尔可夫模型基于行为过程序列，可以识别认知状态及状态之间的转换，同时又可以测量潜在能力。在确证潜在能力的同时，又能解释学生如何学习、如何完成作答任务。其二，传统测量模型的拓展与改造。融合了IRT、潜类别和多水平思想的多水平混合项目反应理论模型应用于嵌套过程数据分析，不仅可以估计学生个体层面能力，还能利用解决问题的动态过程信息揭示学生问题解决的具体路径。解释性IRT模型通过引入题目特征、被试认知标签等预测变量，可以分析不同情境、不同群体特征下的测验模式效应。总体上，可解释AI与传统测量模型的拓展已远远超出“证成”的思想局限，为深入解释教育过程与复杂关系、建构教育的意义奠定了方法基础。

　　4.教育测评实际场域中解释发生的逻辑指向与边界

　　教育测评实践活动大致可分为选拔性考试、大规模教育质量监测和教学过程评价三类。依据评价功能，解释性测评在不同类型评价中的适用性存在边界。选拔性考试寻求获得公平、可靠、可比较的测评结果，证成结果是其核心逻辑，它无关教育过程和教育关系的理解。大规模教育质量监测与日常教学过程评价，关照教育的深入理解，是解释性测评实践发生的重要场域。但它们解释发生的逻辑指向存在差异。其一，大规模教育监测重在教育关系解释，需要着重加强教育过程的解释。大规模教育监测通过抽样调查学业成就及相关背景因素，深入分析导致学业表现差异的影响因素，旨在解释学业表现与学生个人、教师、学校、家庭之间的关系，促进对教育“为什么发生”的理解。然而，由于追踪机制的不健全，解释学生、学校等教育主体的发展变化存在困难。因此，国家层面教育质量监测可以考虑扩大样本覆盖范围、完善追踪监测机制，区域层面监测可以考虑全员覆盖、缩短监测时间间隔，从而追踪教育主体的发生过程，提升对教育过程的解释。其二，日常教学评价需要加强解释的统整性，提升解释力。日常课堂教学存在大量的即时问答、课堂小测、单元测验、阶段性的期中或期末考试等，这些零散而杂乱的微小测评提供了丰富信息，但也因缺乏统整性而难以深入解释教育过程与教育关系。对此，可以依托数字化教学平台将教育活动的真实过程数字化、数据化，整合教育教学过程中的各类信息，形成解释材料；同时，应用解释性模型建模教育过程和教育关系，诊断学习发展轨迹，生成教与学的策略，从而提升日常教学评价的解释力。其三，选拔性考试重在丰富解释内容。高利害的选拔性考试本质上是一种证成性测评，提升其解释力重在丰富解释内容。例如，在传统学业考试之外，增加综合素质的测评内容，在英语考试中增加口语考试，在科学类学科测评中增加实验技能的测评等。

　　5.复杂测评技术应用的解释风险规避

　　解释复杂的教育世界建立在智能技术与复杂解释模型的基础之上。然而，测评“技术之强”可能带来“教育理解之弱”，潜藏技术与数据至上、评价主体性让渡、算法偏见等风险。解释性测评需要正视复杂测评技术应用的伦理问题，以此促进回归教育的理解。

　　第一，坚持评价的主体性。解释性测评以理解教育、理解人为指向，需要坚持评价的主体性，规避技术与数据对评价的控制、规训。一方面，坚持评价者的主体性。在评价活动中要强化评价者的主导地位，防止评价设计与决策被智能技术僭越。另一方面，坚持评价对象的主体性。“评什么”在于回答“理解什么”“为什么需要理解”，防止无意义测评与过度测量。

　　第二，强化测评过程的透明性与可解释性。智能模型的应用增加了测评过程的复杂性，人工智能复杂的计算与决策过程难以被直观理解，衍生测评模型与过程的可解释性隐忧。因此，解释性测评模型选用与算法开发需要平衡复杂模型的拟合性与可解释性，以解释性模型为中心，以测评过程的可解释为保证。

　　第三，构建智能技术应用的伦理规范。建立数据安全与隐私保护规范，防止学生和教师的个人数据在收集、存储和使用过程中泄露或滥用而侵犯个人隐私。规范模型训练，在数据标注、算法开发、模型训练中加强算法审查和公平性测试，规避数据与算法所衍生的偏见。完善监督制度，引导合理使用AI，防止智能技术的滥用、误用，引领智能技术赋能的解释性测评成为一种至真、至善的人文实践。