核心素養是全球教育界關注的(de)焦點問題,也(yě)是當下(xià)教育改革的(de)風向标。然而,如何合理(lǐ)測評學科核心素養成爲教育改革和(hé)發展的(de)重要議(yì)題,學科核心素養的(de)測評需加關注各種新型評價形式[1]。認知診斷測評作爲一種新的(de)教育測評範式,旨在将嚴格的(de)心理(lǐ)測量标準與形成性評估的(de)目标相結合[2]。通(tōng)過知識鏈間的(de)關系獲取更恰當的(de)學習(xí)路徑和(hé)學習(xí)進階,更好地指導教學實踐。本研究采用(yòng)認知診斷測評理(lǐ)論,試圖爲核心素養的(de)測評提供新的(de)視角和(hé)方法。
一 認知診斷用(yòng)于核心素養測評的(de)可(kě)行性分(fēn)析 1 核心素養的(de)本質特征決定了(le)它的(de)可(kě)測性 可(kě)測性是素養測評的(de)前提,素養的(de)本質決定了(le)素養的(de)可(kě)測性,如素養是知識、技能、态度的(de)超越和(hé)統整,是一整套可(kě)以被觀察、教授、習(xí)得(de)和(hé)測量的(de)行爲[3]。素養是完成某一情境工作任務所必需的(de)一系列行爲模式,這(zhè)些行爲與績效表現密切相關[4]。核心素養具有可(kě)測量性,可(kě)加以評價,核心素養的(de)表現水(shuǐ)平可(kě)經過推測得(de)知,呈現出一個(gè)連續體的(de)狀态,代表構成要素的(de)高(gāo)低水(shuǐ)平[5]。可(kě)見,核心素養是在繼承“三維目标”的(de)基礎上發展出來(lái)的(de)、更具有統整性的(de)概念,它不能脫離知識而存在,是通(tōng)過知識積累、技能發展、态度養成而形成的(de)綜合行爲能力。如歐盟核心素養框架就是将行爲導向的(de)核心素養分(fēn)解成知識、技能和(hé)态度三個(gè)方面來(lái)進行評價的(de)[6]。這(zhè)種可(kě)分(fēn)解性,對(duì)核心素養的(de)認知診斷測評起著(zhe)至關重要的(de)作用(yòng)。 2 核心素養與認知診斷技術都具有内隐性 核心素養具有綜合性、内隐性、情境性和(hé)适應性等特點,難以直接觀察,必須将核心素養依附于具體行爲,通(tōng)過觀察外顯的(de)行爲表現來(lái)間接了(le)解内隐的(de)核心素養狀況。如歐盟國家核心素養評價的(de)一種思路是将核心素養轉換爲可(kě)觀察的(de)外顯行爲,對(duì)核心素養開展評價[7]。認知診斷測評作爲新型的(de)測評手段,是高(gāo)級潛變量模型,主要解決通(tōng)過傳統測評無法測量的(de)内部能力問題。利用(yòng)認知診斷測評技術來(lái)測量學生的(de)核心素養,可(kě)以較好地将核心素養内隐的(de)特征外顯化(huà),讓核心素養的(de)測評從模糊狀态轉爲清晰,爲了(le)解核心素養的(de)内部特征及其結構化(huà)特點提供新視角。 3 認知診斷測評使素養測評更加可(kě)操作 認知診斷需要将核心素養所代表的(de)行爲能力分(fēn)析成認知屬性,進而通(tōng)過現代心理(lǐ)學和(hé)測量學的(de)手段對(duì)核心素養的(de)内部結構、認知規律及其在細粒度上的(de)表現做(zuò)出全面的(de)診斷和(hé)評價。認知診斷測評不僅注重學生個(gè)性化(huà)的(de)評價,而且關注群體的(de)學習(xí)路徑和(hé)學習(xí)進階等整體狀态。因此,核心素養的(de)認知診斷測評成爲了(le)評價學生學業成就、考量課标教材合理(lǐ)性、指導教學有效有序開展的(de)依據。此外,認知診斷測評讓核心素養的(de)計算(suàn)機自适應測評也(yě)成爲可(kě)能,如美(měi)國計算(suàn)機自适應測驗已經以不同形式存在于州立K-12教育測評中[8]。核心素養的(de)認知診斷測評更加具體,師生對(duì)核心素養的(de)理(lǐ)解更加深刻,使得(de)有針對(duì)性地培養學生核心素養有了(le)可(kě)操作的(de)依據。 二 核心素養測評的(de)認知診斷體系建構 1 理(lǐ)論假設與基礎論證 核心素養的(de)屬性層次界定是核心素養認知診斷測評的(de)基石,它直接影(yǐng)響認知診斷測評的(de)質量。屬性層次既要符合學科邏輯思維,又要遵循學生認知規律——這(zhè)就要求屬性層次建構者在學科理(lǐ)解的(de)基礎上,充分(fēn)了(le)解學生的(de)認知規律,既要有豐富的(de)學科經驗,又要有大(dà)量的(de)學生知識。Leighton等[9]認爲,目前認知診斷屬性在達到評估和(hé)診斷目的(de)方面存在困難。爲解決這(zhè)一困難,國際上較爲成熟的(de)辦法是聯合學科專家、心理(lǐ)測評專家和(hé)一線教師,來(lái)開發認知診斷屬性層次。此外,還(hái)可(kě)以采用(yòng)心理(lǐ)研究的(de)方法來(lái)構建适合認知診斷的(de)屬性層次,如口語報告法、眼動研究技術等。屬性的(de)細粒度直接影(yǐng)響結果的(de)解析深度,由于測評目的(de)不同,其屬性的(de)劃分(fēn)也(yě)存在差異。但從數據的(de)複雜(zá)性角度來(lái)考慮,一般屬性個(gè)數以6~9個(gè)爲宜。若某一核心素養的(de)屬性有6個(gè),那麽可(kě)能的(de)屬性類型有以下(xià)5種[10],如圖1所示。 圖1 屬性層次關系的(de)基本類型 2 認知診斷測評編制 在認知診斷測評編制中,Q矩陣起到了(le)結構化(huà)統領的(de)作用(yòng)。Q矩陣理(lǐ)論将被試不可(kě)觀察的(de)認知狀态轉化(huà)爲在項目上可(kě)觀察的(de)作答(dá)模式,以此來(lái)分(fēn)析和(hé)推測被試的(de)認知狀态[11]。以圖1中的(de)C類分(fēn)支型爲例,用(yòng)1表示考查該屬性,0表示不考察。這(zhè)樣,一道試題總計可(kě)能的(de)考查模式應有26個(gè)。本研究在圖1中C類屬性層次關系的(de)限制下(xià),計算(suàn)出理(lǐ)想測量模式,如表1所示。 表1 C類分(fēn)支型的(de)理(lǐ)想測量模式屬性考查分(fēn)布 在表1的(de)理(lǐ)想測量模式中,排除學生做(zuò)題過程中的(de)猜測與忽視情況,可(kě)以推導出屬性掌握模式及其對(duì)應的(de)理(lǐ)想反應模式,如表2所示。 表2 C類分(fēn)支型屬性的(de)掌握模式及其對(duì)應的(de)理(lǐ)想反應模式 在表2中,屬性掌握模式(100100)表明(míng)學生隻掌握了(le)第一個(gè)和(hé)第四個(gè)屬性——在這(zhè)種掌握模式下(xià),排除猜測和(hé)忽視情況,學生隻能夠做(zuò)對(duì)T1、T4、T12、T15測試題。 3 認知診斷模型選擇與應用(yòng) 認知診斷測評依據不同的(de)測評條件開發出了(le)多(duō)種模型。以RSM爲例,該模型爲了(le)将測量得(de)到的(de)多(duō)維度數據降到二維空間進行分(fēn)類,構建了(le)一組序偶(θ,ζ),規則空間是以(θ,ζ)爲參數的(de)分(fēn)類笛卡爾乘積二維空間。其中,θ表示項目反應理(lǐ)論中計算(suàn)出的(de)被試的(de)能力值,ζ表示警戒指标,即能力爲θ的(de)被試實際反應模式偏離理(lǐ)想反應模式的(de)程度[12]。因此,可(kě)以依據理(lǐ)想反應模式計算(suàn)出标準的(de)規則點(純規則點)(θRi,ζRi)和(hé)實際反應模式(θXi,ζXi)。定義ζ的(de)值如公式(1)所示。其中,P(θ)=[P1(θ), P2(θ),…,Pi(θ)](i=1 ,2, 3, …, n),Pi(θ)指能力爲θ的(de)被試在第i個(gè)項目上作答(dá)正确的(de)概率。 公式(1) 雙參數評估中P(θ)的(de)計算(suàn)如公式(2)所示,其中ai, bi指第i個(gè)項目的(de)區(qū)分(fēn)度和(hé)難度,D一般取常值1.7。T(θ)指正确回答(dá)項目概率的(de)均值向量,其計算(suàn)如公式(3)所示,其中t1(θ)的(de)計算(suàn)如公式(4)所示。 依據以上規則空間模型,計算(suàn)出純規則點(θRi,ζRi)和(hé)實際反應模式(θXi,ζXi),一般采用(yòng)馬氏距離判别法或貝葉斯方法,按照(zhào)純規則點将被試分(fēn)到不同的(de)理(lǐ)想反應模式中,即可(kě)達到對(duì)被試進行分(fēn)類診斷的(de)目的(de)[14]。 4 結果分(fēn)析與診斷報告 認知診斷測評了(le)解學生在多(duō)維、細粒度的(de)潛在認知屬性上的(de)差異,充分(fēn)體現了(le)學生診斷性、個(gè)性化(huà)的(de)形成性評估特點;同時(shí),也(yě)可(kě)以通(tōng)過知識鏈間的(de)關系獲取更恰當的(de)學習(xí)路徑和(hé)學習(xí)進階,關注統整性的(de)終結性評估。認知診斷測評模型的(de)本質,就是通(tōng)過心理(lǐ)測量學手段,按照(zhào)實際反應模式和(hé)理(lǐ)想反應模式匹配的(de)最大(dà)概率,将被試劃歸到不同的(de)理(lǐ)想掌握模式中,進而依據被試在理(lǐ)想掌握模式所處的(de)狀态對(duì)被試進行有針對(duì)性的(de)屬性掌握策略與方法的(de)補救。除此之外,認知診斷測評還(hái)可(kě)以獲得(de)學生核心素養的(de)學習(xí)進階。學習(xí)進階作爲學生學習(xí)某一領域知識的(de)認知過程和(hé)發展順序,涉及對(duì)發展學生相關認知活動的(de)描述,對(duì)整個(gè)教育教學有奠基作用(yòng),也(yě)可(kě)爲國家課程标準的(de)修訂、教材的(de)編寫、教學順序的(de)安排以及學生學習(xí)效果的(de)測評提供基礎性的(de)理(lǐ)論支持。 三 核心素養的(de)認知診斷測評的(de)案例分(fēn)析 認知診斷中屬性建構是整個(gè)測評的(de)基礎。本研究以數感爲例進行案例分(fēn)析,将數感分(fēn)爲9個(gè)認知屬性[15]——A1:理(lǐ)解整數的(de)基本含義;A2:理(lǐ)解分(fēn)數和(hé)小數的(de)基本含義;A3:數字的(de)多(duō)元化(huà)表示;A4:理(lǐ)解整數的(de)相對(duì)和(hé)絕對(duì)大(dà)小;A5:理(lǐ)解分(fēn)數的(de)相對(duì)和(hé)絕對(duì)大(dà)小;A6:整數運算(suàn);A7:分(fēn)數、小數的(de)簡單運算(suàn);A8:分(fēn)數、小數的(de)複雜(zá)運算(suàn);A9:整數的(de)應用(yòng)。數感的(de)認知診斷屬性模型如圖2所示。按照(zhào)理(lǐ)想測量模式對(duì)屬性考查的(de)要求形成了(le)測評工具,其部分(fēn)測試樣題如表3所示。 圖2 數感的(de)認知診斷屬性模型 表3 數感認知診斷測試樣題(部分(fēn)) 本研究依據規則空間模型建立的(de)序偶[(θ,ζ)]規則,計算(suàn)出純規則點(θXi,ζXi);依據被試測量的(de)實際數據,計算(suàn)出實際反應模式對(duì)應的(de)序偶(θXi,ζXi);使用(yòng)馬氏距離衡量學生實際反應模式的(de)點與理(lǐ)想反應模式的(de)純規則點之間的(de)距離,其主要的(de)能力值θ和(hé)對(duì)應的(de)掌握模式如表4所示[16]。 表4 數感的(de)認知診斷分(fēn)類結果 表4顯示,三年級學生主要掌握了(le)A1、A2、A3、A4和(hé)A6屬性,并且這(zhè)些掌握模式對(duì)應的(de)能力值相對(duì)較低。四年級學生進一步掌握了(le)A5和(hé)A9屬性,并且對(duì)應的(de)能力值也(yě)有所增加。五年級學生幾乎掌握了(le)所有的(de)屬性,并且在θ=5.48、θ=3.62等高(gāo)能力的(de)掌握模式上占據較大(dà)的(de)比例。針對(duì)不同水(shuǐ)平的(de)學生,可(kě)以制定個(gè)性化(huà)的(de)補救方案,如對(duì)于隻掌握A1和(hé)A2的(de)學生,補救途徑可(kě)以是A3→A4→A5→A6→A9→A7→A8或A4→A6→A9→A3→A5→A7→A8。在第一種補救方法中,學生首先了(le)解數字的(de)大(dà)小,然後掌握整數的(de)運算(suàn)和(hé)應用(yòng),最後掌握分(fēn)數和(hé)小數的(de)運算(suàn);而在第二種補救方法中,學生首先提高(gāo)對(duì)整數的(de)數感,然後提高(gāo)對(duì)分(fēn)數和(hé)小數的(de)數感。 四 啓示與討(tǎo)論 1 啓示 (1)認知診斷測評使核心素養的(de)測評從理(lǐ)念性的(de)描述轉化(huà)爲實踐性的(de)操作 到目前爲止,學習(xí)測評的(de)觀念發生了(le)兩次重要改變:第一次是由“對(duì)學習(xí)的(de)評價”到“爲了(le)學習(xí)的(de)評價”;第二次是從“爲了(le)學習(xí)的(de)評價”到“評價是學習(xí)的(de)一種方式”[17]。評價理(lǐ)念的(de)變化(huà),要求核心素養的(de)評價要突出學生本身在學習(xí)中的(de)主體地位和(hé)作用(yòng),能夠制定個(gè)性化(huà)的(de)評價方案和(hé)策略。然而,現有核心素養的(de)評價标準僅停留在對(duì)認知水(shuǐ)平的(de)描述階段,是一種表現性的(de)标準,這(zhè)種标準是學生被劃入相應類别所需的(de)特定表現(包括知識、技能和(hé)能力等)的(de)最低水(shuǐ)平描述[18],其評價的(de)結果主觀性太強,故難以提出可(kě)操作的(de)培養措施和(hé)補救措施。核心素養的(de)認知診斷測評将評價的(de)目标整合到測評體系中,依據學生行爲能力表現推測學生素養水(shuǐ)平,可(kě)實現通(tōng)過外在表現推測内隐特征的(de)目的(de)。這(zhè)種評價将學生的(de)素養水(shuǐ)平按照(zhào)不同的(de)理(lǐ)想掌握模式進行細分(fēn),并給每種掌握模式制定了(le)個(gè)性化(huà)的(de)補救方案。可(kě)見,認知診斷測評技術可(kě)将籠統的(de)核心素養評價更加清晰化(huà),爲核心素養評價并通(tōng)過評價促進核心素養的(de)培育起到了(le)重要作用(yòng)。 (2)核心素養的(de)認知診斷測評兼具形成性評估和(hé)終結性評估的(de)特點 核心素養是一個(gè)人(rén)在某個(gè)方面的(de)關鍵能力和(hé)重要品質,具有高(gāo)度的(de)抽象性和(hé)綜合性,因此其評價需要關注整合性,不宜碎片化(huà)。但是,由于核心素養的(de)内隐性和(hé)綜合性特征,在如何評價、培養學生的(de)核心素養方面存在很大(dà)困難,因此核心素養的(de)評價還(hái)需要進行形成性評估。如PIAS中核心素養的(de)評價既能夠通(tōng)過作答(dá)反映學生在思維品質上的(de)差異,也(yě)可(kě)關注學生的(de)個(gè)性化(huà)發展和(hé)創造性表現,有利于對(duì)學生進行個(gè)性化(huà)診斷[19]。核心素養的(de)認知診斷測評可(kě)以得(de)到每一個(gè)學生的(de)診斷報告,發現學生在學習(xí)中存在的(de)問題,以及在全體學生中所處的(de)水(shuǐ)平,從而有針對(duì)性地提出補救的(de)方案和(hé)路徑。在終結性評估方面,通(tōng)過測評可(kě)以得(de)到核心素養的(de)學習(xí)進階,進一步爲培養核心素養提供合理(lǐ)的(de)路徑和(hé)策略。學習(xí)進階是修訂課程标準、編寫教材、進行教學與學習(xí)評價的(de)重要基礎,爲整個(gè)教育教學的(de)發展提供了(le)有效支持。認知診斷精細的(de)過程性、個(gè)性化(huà)測評特點,爲核心素養的(de)測評提供了(le)抓手;認知診斷對(duì)整個(gè)認知規律和(hé)學習(xí)進階的(de)把握,則爲核心素養的(de)測評指明(míng)了(le)發展方向。 (3)認知診斷測評爲核心素養的(de)計算(suàn)機自适應測評奠定了(le)基礎 學習(xí)測評發展的(de)趨勢是走向計算(suàn)機自動化(huà)。“互聯網+”時(shí)代的(de)到來(lái),給信息、通(tōng)訊和(hé)技術(ICT)在學習(xí)測評中的(de)應用(yòng)提供了(le)巨大(dà)的(de)發展空間。美(měi)國的(de)ICT測評技術已經開啓了(le)從“明(míng)确考試的(de)範式”到“嵌入式評價範式”的(de)轉變。在“明(míng)确考試的(de)範式”中,測評強調精準測查學生的(de)學業表現;在“嵌入式評價範式”中,測評強調有針對(duì)性的(de)及時(shí)反饋[20]。可(kě)見,學習(xí)測評技術的(de)自适應性具有傳統測評所缺乏的(de)衆多(duō)優點,核心素養測評走向計算(suàn)機自适應化(huà)是測評發展的(de)必然趨勢。目前,PISA和(hé)NAP-SL測試都已全部使用(yòng)計算(suàn)機自适應測評進行學業測評。而認知診斷理(lǐ)論作爲計算(suàn)機自适應測評的(de)重要理(lǐ)論,爲計算(suàn)機自适應測評起到了(le)基礎性的(de)支撐作用(yòng)。核心素養的(de)認知診斷測評,也(yě)爲核心素養的(de)計算(suàn)機自适應測評提供了(le)前提條件。現有的(de)學習(xí)測評分(fēn)析工具可(kě)通(tōng)過學生的(de)在線學習(xí)和(hé)測評,将結果以可(kě)視化(huà)的(de)形式呈現給學生,幫助學生分(fēn)析學習(xí)過程中存在的(de)問題,促進反思,調整學習(xí)策略夫[21]。未來(lái)核心素養測評可(kě)以通(tōng)過數字化(huà)工具和(hé)大(dà)數據、雲計算(suàn)等技術,将心理(lǐ)測量模型和(hé)具體的(de)學科核心素養無縫嵌入到學生的(de)學習(xí)和(hé)測評過程中,對(duì)學生的(de)學習(xí)過程進行動态監測,以促進學生更好地學習(xí)[22]。 2 討(tǎo)論 無論是個(gè)性化(huà)的(de)學生特征分(fēn)析、綜合性的(de)學習(xí)進階制定,還(hái)是計算(suàn)機自适應測評的(de)理(lǐ)論準備,核心素養的(de)認知診斷測評都具有明(míng)顯的(de)優勢。與此同時(shí),核心素養的(de)認知診斷測評也(yě)存在有待改進的(de)空間:①認知診斷測評理(lǐ)論強調的(de)是對(duì)核心素養的(de)具體化(huà)。由于核心素養的(de)抽象性和(hé)内隐性,“個(gè)體所具備的(de)核心素養及其水(shuǐ)平,必須借助于他(tā)們在具體任務中的(de)實際表現加以推測”[23]。但核心素養的(de)具體化(huà)并不意味著(zhe)測評隻關注局部而不考慮整體,更不可(kě)将評價碎片化(huà),應該在具體與抽象之間保持“精妙的(de)平衡”[24]。②認知診斷的(de)測評基本上都是以0或1的(de)二元狀态評分(fēn),這(zhè)使得(de)測評試題的(de)編制有較大(dà)的(de)局限。核心素養的(de)測評關注課程學習(xí)的(de)“真實性學業成就”,而真實性學業成就不隻是習(xí)得(de)事實性的(de)學科知識和(hé)概念,而是能夠運用(yòng)這(zhè)些知識或概念解決複雜(zá)的(de)現實性問題[25],因此核心素養需要有一定情境化(huà)、整合性和(hé)開放性的(de)評價任務——當然,随著(zhe)認知診斷測評的(de)多(duō)級評分(fēn)模式的(de)成熟,這(zhè)一問題可(kě)能會得(de)到較好的(de)解決。此外,認知診斷測評對(duì)技術的(de)要求較高(gāo),故在測評的(de)廣泛普及方面會受較多(duō)的(de)限制,這(zhè)就需要專業人(rén)員(yuán)開發具有普适性的(de)核心素養的(de)認知診斷測試平台,爲更多(duō)人(rén)員(yuán)參與測評提供技術服務。