天天看點

考試分數報告研發的國際經驗及啟示

作者:永大英語

感謝您關注“永大英語”!

考試分數報告研發的國際經驗及啟示

考試分數報告研發的國際經驗及啟示

孫 杭 金 豔

摘要:分數報告是考試結果的呈現形式,作為考試開發人員與考試使用者的溝通媒介,它在很大程度上影響着考試能否達成預期目的。十多年來,在教育與心理測量領域,分數報告的研究與實踐取得豐碩成果。本文聚焦于國際前沿的分數報告開發流程和評價方法,對國内外大型外語考試分數報告案例進行分析,提出大陸教育考試分數報告的改革和創新可以從整體規劃、理論建構和加強資訊技術運用等三個方面展開,為大陸分數報告的理論和實踐創新提供參考。

關鍵詞:分數報告;教育評價改革;研發架構;評價體系;國際經驗

作為考試結果的呈現形式,分數報告(score report)是實作考試功能的重要環節。Zapata-Rivera等指出,分數報告是連接配接考試資訊和考試使用者決策或行動的橋梁[1]。無論一個考試的構思、設計和實施過程如何科學合理,假如考試使用者不能正确地了解和使用分數報告,則所有前期努力都将付諸東流[2]。分數報告作為考試的外部形象,是公衆了解考試資訊最直覺的材料,直接影響着公衆對考試的看法[3]。一直以來,考試研發人員将大部分精力放在如何開發技術上能夠通過公衆和專業人士嚴格審查的考試,而對如何組織、報告和使用考試結果的研究相對較少[4]。在很長一段時間裡,大多數考試的分數報告幾乎隻包含總分及對考試使用者來說不太相關的資訊,給人留下負面刻闆印象,認為考試就是将每個考生标記成一個數字或提供一堆令人無法了解的資訊[5]585。有研究表明,無論是教育決策者、教學工作者還是公衆,在了解和使用考試結果方面都存在不少困難[6-8]。

十多年來,社會公衆以及教育界對考試後效(washback)不斷反思,促使教育與心理測量領域重新認識和關注分數報告的重要性。有關分數報告的相關研究迅猛增長,已經逐漸成為一個重要且獨立的研究領域。同時,分數報告的研究内容也不再局限于分析考試分數的心理測量學特質,而是擴充到如何在設計分數報告時充分考慮特定閱聽人的需求和特征,如何利用不同的圖示和支援性材料提高使用者對分數報告的了解,以及如何促進考試資訊的合理使用等方面[9]。

目前,大陸大規模教育考試組織嚴格規範、命題品質高,但對考試分數報告的關注不足、相關研究也較少,尚未形成獨立的理論體系和實踐模式。國内有關研究發現,分數報告存在内容和形式單一、對教學和學習的導向作用不強等問題,考生認為現有大規模考試分數報告的豐富性有待提高[10-11]。同時,越來越多的國内學者意識到挖掘和利用考試資料、對分數報告進行改革和創新的重要性[12-14]。鑒于此,本文通過梳理和分析國際教育考試研究中分數報告的基本特征、開發步驟與評價方法,總結大型考試分數報告的實踐現狀,探索科學有效的分數報告内容和形式,以促進大陸教育考試分數報告的理論研究和實踐探索。

考試分數報告研發的國際經驗及啟示

一、分數報告的基本特征

由于不同考試的考試目的和分數報告對象存在明顯差異,是以并不存在一體通用的分數報告模式。然而,分數報告研發時應考慮的因素和分數報告的構成要素上存在諸多共性。有研究者在總結大量現有分數報告的基礎上,建構了分數報告的基本特征彙總表[15],見表1。

考試分數報告研發的國際經驗及啟示

該架構将分數報告的特征分為八個基本要素,其中:1)報告對象,指報告的使用者,包括學生、家長、教師、教育管理人員等,在很大程度上決定報告的内容和資訊呈現方式;2)分數量表,指分數的呈現形式,包括原始分、标準分、百分位數等多種形式,每種分數各有利弊;3)分數參照,指考試分數可以提供學生在學校、地區或國家常模群體中的位置(即常模參照),或學生對某些知識内容的掌握是否達到标準(即标準參照);4)評價單元,包含題目分、單項分和總分,總分是最常見的評價單元,特定知識/技能領域的單項分更能提供對教與學具有指導意義的資訊,如提供診斷性回報;5)報告單元,指報告可以提供給考生個人、班級、學校、地區等不同層面,且每個單元具有獨特性;6)測量誤差,指報告對考試的測量誤差進行呈現和解釋,如提供單項分的同時也提供該層面的測量誤差;7)呈現方式,指報告中包含的數字、圖表、文字叙述三種呈現方式;8)報告媒介,指報告傳播的三種方式,紙質版是傳統的報告媒介,網絡版本(包含靜态型和互動型)随着資訊技術的發展愈發常見。在上述八個要素中,報告對象和報告單元是對報告目标閱聽人的界定,分數量表、分數參照、評價單元和測量誤差四項主要關注考試結果的報告方法,呈現方式和報告媒介強調報告内容的資訊呈現方式和發放形式等。在研發分數報告時,考試開發人員首先應該考慮和确認這些基本特征。

Zenisky和Hambleton在解析分數報告的基本要素時指出,應充分考慮分數報告的内容(描述和資料)、發放方式(紙質或電子版)、發放對象(個人或群體)[5]586-591。其中,報告内容的描述部分是對分數報告進行基本的描述和解釋,具體包含考試名稱/辨別、考試日期、報告标題、報告目的、考試目的、介紹性引言、考生個體或群體資訊标題、附加資源(如課程資料、解釋性指南)的外部連結、分數使用指導、術語表、後續步驟等多項資訊。資料部分是分數報告的核心,包括總結性結果、表現級别描述、單項表現、題目層面結果、常模參照結果、形成性或診斷性資訊、進步情況預測和題目映射(item mapping)等七個主要内容。此外,根據2014年版《教育與心理測量标準》(Standards for Educational and Psychological Testing)要求,考試機構應幫助報告對象正确了解考試分數的意義[16]119。是以,分數報告應清晰、易于了解,且提供分數解釋的相關資訊,如提供計分方法和分數準确性的說明等。同時還應認識到,分數報告包含的最重要的資訊和呈現這些資訊的最佳方式取決于目标閱聽人、考試目的及考試分數的心理測量學特質[17]。

考試分數報告研發的國際經驗及啟示

二、分數報告的研發架構與流程

近年來,教育與心理測量領域發表了一系列有關分數報告開發步驟的研究。這些研究為考試開發人員提供了科學合理、基于研究支撐的研發架構,有助于收集相關的效度證據。其中,Zapata-Rivera[18]、Hambleton等[19]、Slater等[20]開發的三個架構應用較廣泛,本文以主要研究者的名字命名其架構名稱,每個架構的主要階段劃分和具體内容示例見表2。

考試分數報告研發的國際經驗及啟示

通過對比以上三個架構可知,Zapata-Rivera架構對應Hambleton等架構的前三個階段,而後者在第四階段強調釋出後的分數報告進行持續調整和維護的重要性。Slater等架構增加制訂分數報告研發進度表階段(階段二),并強調收集考試委托方回報(階段四)和使用者回報(階段五)的重要性。總體而言,上述三個架構都強調了報告研發前的準備工作、研發報告樣例、收集回報并加以修訂、确定分數報告四個主要階段。下面以Hambleton等架構為例,對考試開發者在各階段應采取的行動和注意事項進行詳細介紹。

(一)階段一:奠定研發基礎

Hambleton和Zenisky将分數報告研發的前期基礎工作分為四步。第一步是對貫穿整個考試設計的分數報告應考慮的因素進行說明。例如,考試測量什麼能力或技能?分數報告想要提供哪些資訊?這一步的首要關注點是確定分數報告準确地反映考試想要達成的目标,并在考試開發的最初階段厘清和說明考試、分數和分數報告的關系。第二步是确認報告對象,即明确根據分數報告做出決策或采取行動的利益相關者。例如,誰是分數報告的主要使用者?他們會根據分數報告做出哪些決策?不同群體對分數報告的需求不同,如教師可以根據分數報告調整教學,學生可以借助報告有針對性地開展自主學習,教育管理部門可以将報告作為評價、篩選的重要依據等。第三步是對報告對象進行需求分析。在與報告使用者的溝通過程中,應關注他們想要了解考試表現的哪些方面,哪些資訊對他們有用以及如何擷取和使用分數報告等[5]593。對報告對象的分析不僅包括鑒定他們的需求,還包括了解他們的測評素養[1]。測評知識較少的群體需要給他們提供更多的解釋性、支援性資訊以協助他們正确地了解報告内容。第四步是閱讀相關文獻,包括行業行為準則和有關實證研究[21]。這些行為準則和研究可以為考試開發人員提供科學可靠的參照。目前,很多考試機構都公開其分數報告樣式,通過查閱分數報告執行個體,可以借鑒先進經驗并避免重複他人犯過的錯誤[2]。

(二)階段二:研制分數報告樣例

基于階段一收集到的資訊資料,考試開發人員要設計一份或多份分數報告樣例。分數報告樣例也被稱為預期分數報告(prospective score report, PSR),是最終版本的分數報告内容和呈現形式的模型[22]。按照考試開發流程,研發人員應在考試開發初期提前設計PSR,并在考試開發流程推進中根據發展變化對其進行相應的修訂。然而,實際情況是很多分數報告經常是在考試開發的最後階段才被提上研究日程,此時留給設計和修改分數報告的時間和資源都極其有限[5]591,由此導緻分數報告可能無法提供一些重要資訊。此外,PSR既要與測試目标和特定閱聽人的需求相比對,還要充分考慮整體設計和資訊呈現的清晰程度和準确性,是以需要不同領域的專家通力合作。根據分數報告的形式和功能,專家團隊包括專業領域專家、測量學專家、資訊技術專家、圖表設計師等[19]。

(三)階段三:擷取回報并進行修正

這一階段旨在擷取相關人員對PSR的回報資訊,并根據回報資訊修正報告,是分數報告研發過程中不可或缺的重要步驟。首先,進行内部稽核并達到滿意結果,這需要考試開發人員根據收集到的資訊對PSR進行幾輪審查和修改。其次,采用問卷調查法、焦點小組法、訪談法、有聲思維法、直接觀察法或眼動實驗等等多種研究方法進行外部稽核,既要收集報告使用者的态度和感受,也要探究他們能否正确地了解報告内容。考試開發人員可以給報告使用者提供不同版本的分數報告,以了解他們偏向于哪個版本中的哪些特征[20]。最後,要認真、仔細地分析資料并作為依據修改報告。這是一個不斷重複的過程,因為分數報告在版本确定和正式投入使用前必須經過多輪修改。

(四)階段四:評估和維護報告

在分數報告正式對外釋出後,考試研發人員還要對其進行維護。在階段三中提及的資料收集方法也可應用于本階段。評價分數報告需要大規模地收集報告對象的意見回報,既包括對報告内容和形式的回報(如資訊的可讀性、視覺化效果、對不同内容和呈現方式的偏好),也包括對分數報告的了解和使用情況的調查。例如,報告對象能否正确地描述分數的含義?他們根據分數報告做出哪些決策?此階段應着重關注報告使用者在何種程度上了解(或誤解)和使用(或誤用、濫用)分數報告,以及由此産生哪些正面、負面的影響等。

總之,研發架構可以為分數報告的設計提供科學、有效的模闆,使考試開發工作有章可循、有據可依。上述研發架構具有一定的靈活性,可以應用在不同的考試場景中。此外,分數報告的研發步驟已經發展為疊代設計方法(iterative methodology design),即根據需要不斷地利用後期搜集的資訊修改和重複前期工作[17,19],這種重複的疊代方法在Zapata-Rivera的分數報告開發流程中得到展現,見圖1。

考試分數報告研發的國際經驗及啟示
考試分數報告研發的國際經驗及啟示

三、分數報告的評價體系

為了確定分數報告的效度,需要對分數報告自身及研發流程等進行客觀評估,為此不同學者設計了不同的評價系統,以下三種是比較典型的分數報告評價體系。

與分數報告開發架構相對應,Zenisky和Hambleton針對每一階段如何評價分數報告的研發程序同步設計了評價表,見表3[5]595。該評價表由開放式問題組成,旨在鼓勵考試開發者清楚地記錄分數報告開發過程中的細節。Zenisky和Hambleton認為,通過明确地記錄和說明分數報告的開發過程,考試機構可以積累分數報告開發的效度證據以支援報告的合理使用[5]597。

考試分數報告研發的國際經驗及啟示

此外,Zenisky和Hambleton還就如何評價分數報告提出37個指導性問題,涵蓋八個方面。這裡,每個領域僅列舉一個代表性問題,具體如下:1)總體方面,了解分數報告是否反映主要利益相關者的資訊需求;2)報告介紹和描述方面,了解分數報告是否說明考試目的;3)考試分數和表現級别方面,了解分數報告是否較長的描述了所使用的表現級别或心理狀态,如合格、不合格,基礎、熟練、通過等;4)考試表現名額方面,了解分數報告是否通知報告使用者分數的精确程度;5)分數報告内容的其他方面,了解分數報告是否提供電話号碼、網站等聯系方式以便報告使用者有問題時可以進行咨詢;6)語言表述方面,了解分數報告是否去除對報告使用者來說難以了解的統計學或其他專業術語和符号;7)設計方面,了解報告是否清晰且合乎邏輯地被劃分為不同部分以提高可讀性;8)說明性指南和其他輔助性材料方面,了解說明性指南是否存在,能否提供清晰、有用的資訊等。總之,這些指導性問題是對現有分數報告實踐和研究的總結,可以為全面地評價分數報告提供支撐。

從考試效度概念中對分數的解釋和使用角度出發,O’Leary提出關注結果的分數報告評價方法(outcomes-focused evaluation of score reporting),該方法包含清晰度和實用性兩個原則,具體分為七個要素[23]。清晰度要求分數報告能讓使用者較為容易地了解,具體包含四個要素:1)設計特征,即分數報告的設計必須基于現有的最佳實踐,包括當代最優秀的報告範例、行為準則以及文獻建議;2)解釋性指南,指分數報告必須是獨立的,應将充分了解報告資訊所需要的額外工作降到最少;3)呈現方式,指分數報告必須融合多種資料呈現方式;4)語言形式,分數報告的語言必須容易了解,而實用性則要求分數報告的目的、預期解釋以及預期的行動與後果等三個要素必須明确。

綜上可知,上述三個分數報告評價體系存在一定差別,其中,Zenisky和Hambleton設計的第一個評價表,其目的在于評價分數報告研發流程,引導考試開發者對開發步驟進行自查;第二個體系關注分數報告本身,以提問的方式檢查分數報告的各個組成部分;O’Leary提出的評價體系源于研究者對分數報告效度的要求,從結果使用角度出發對報告進行評估。考試開發機構可根據自身需要,選擇合适的分數報告評價體系。

考試分數報告研發的國際經驗及啟示

四、國内外大型外語考試分數報告案例的分析比較

推進和深化分數報告的改革和創新,應基于對現有實踐的了解之上。是以,本研究以Ryan以及Zenisky和Hambleton的分數報告基本特征架構作為理論依據,選取國内外測試人數多、具有一定代表性和影響的七項語言測試的分數報告進行分析比較,結果見表4。

考試分數報告研發的國際經驗及啟示

上述七項語言測試分别為托福(TOEFLiBT)、雅思(IELTS)、劍橋進階英語證書考試(CAE)、培生學術英語考試(PTE-Academic,簡稱PTE)、多鄰國英語考試(Duolingo English Test,簡稱Duolingo)、大學英語四級考試(CET-4)和漢語水準考試(HSK)。表4為七項分數報告目前包含的資訊類型和資訊呈現方式。由于這七項分數報告都包含基本資訊(考生和考試資訊),是以在表中未重複呈現。本研究關注的重點是考試的分數報告,是以在考試官網出現的其他資訊未在表中呈現。

由表4可知,現有大型外語考試的分數報告在内容和形式上既存在共性,也有相當大的差異。首先,考試總分是考生最關注的資訊。上述七種考試的分制為9~710分不等,說明不同分數報告的評分系統差異很大。Zenisky和Hambleton認為,考試采用不同的計分方法,部分原因是考試機構希望将自己的考試分數與其他考試進行區分,以防止錯誤了解考試[5]590。然而,繁多且複雜的評分系統會使非測試專家,如考生、家長、教師等群體難以了解分數的真實含義。為了幫助考試使用者進一步了解分數的含義,部分考試提供分數與等級量表的對應關系。例如,IELTS和CAE在分數報告上直接展現分數與歐洲語言共同參考架構(CEFR)的比照;TOEFL和Duolingo雖然沒在分數報告上直接展現,但在官網上可找到對應資訊,Duolingo還提供與TOEFL和IELTS的分數比照,以幫助讀者了解自身的能力水準。其次,在資訊的豐富性上,雖然這幾種考試對語言技能分類稍有不同,但都提供語言技能的單項分。此外,TOEFL還提供考生的曆史最高分,HSK為幫助考生了解其分數在常模群體中的位置專門報告百分等級,CET-4在官網的分數解釋中提供常模資訊、單項分、總分的百分位表等資訊。再次,在提供診斷性資訊方面,PTE提供考生個人技能檔案,并提供技能定義和個性化建議,以幫助考生進一步了解自己的強弱項。最後,在語言能力描述方面,Duolingo報告考生總體能力,CET-4報告口試中語言能力的三個等級,TOEFL等考試在官網上對不同技能和水準進行描述,但并未展現在具體的分數報告上。此外,上述考試多将比較詳細的分數解釋性指南放在官方網站上,但考生是否能快速找到這些資訊,與分數報告上是否标明其位置有關,其中TOEFL、CAE、Duolingo、CET-4四類考試直接在報告上注明相關資訊的位置。

下面以Duolingo和PTE兩個考試的分數報告為例進行分析,見圖2、圖3。

考試分數報告研發的國際經驗及啟示

由圖2可以看到,Duolingo分數報告可分為三個區域。第一部分是考生和考試的基本資訊。第二、三部分是報告的主體,分别為考生的總分和單項分。在第二部分,報告通過加大字号和橙色字型呈現報告使用者最關注的總分,同時采用要點羅列的方式簡要描述考生的總體語言能力,以幫助報告使用者了解考生可以用英語完成的任務。除數字和文字呈現外,報告還用圖示方式直覺地展現考生分數在量尺上的位置。在第三部分,分别報告閱讀和寫作、閱讀和聽力、聽力和口語以及寫作與口語四個單項分數,同樣用明亮的橙色字型進行标示,輔以簡潔的文字描述和圖形展示。值得注意的是,Duolingo報告在分數展示圖中呈現考生總分和單項分的分數範圍(score range),這涉及考試分數的精确度(the precision of test scores)。2014年版《教育與心理測量标準》一書中明确指出考試開發者應提供報告使用者有關分數精确度的資訊[16]119,有研究認為分數精确度的資訊有助于防止使用者對分數資訊過度解讀[7]。Duolingo以圖示方式展示考生分數範圍的作法,既遵循了優秀分數報告的實踐标準,也對如何報告分數精确度進行了有益探索。然而,由于報告上并沒有對分數範圍的含義進行解釋,是以使用者是否了解該部分資訊仍有待研究。最後,Duolingo報告還在底部通過“了解更多”資訊告知考試使用者有關測試評分詳細資訊的網址,并用橙色字型進行提示。

Duolingo的分數報告簡潔清晰、可讀性強,沒有過多的資訊堆積,在空間組織、顔色運用和圖表、文字、數字搭配上科學合理,符合有效的分數報告的基本原則,給考生提供分數範圍也是一個亮點。然而,有研究發現報告使用者通常難以了解分數精确度的相關資訊[7](如标準誤差和置信區間等),如果能輔以适當解釋可能會有更好的效果。

圖3為PTE的分數報告。該報告包含四個分區。第一分區是考生考号和注冊資訊,右側是考生總分,并通過圖形化和背景色方式突出資訊重要性。第二分區是聽、讀、說、寫四個交際技能的單項分,同樣通過圖形和顔色進行強調。第三分區分為兩個部分,左側用柱狀圖再次呈現單項技能得分和總分,更直覺地展現分數間的對比;右側呈現考生資訊。第四分區位于報告底端,是考場資訊。當考生線上閱讀PTE報告時,還可看到包含口語和寫作的開放式作答、短篇寫作等八個子技能的個人技能檔案,同時還有技能的概述和個性化建議。其中,個人技能檔案部分用耳機、書本、對話框和鋼筆等圖形形象地展示了所涉及的單一或多種技能,并用柱狀圖展示該領域的能力水準,建議部分則采用要點羅列的文字叙述。這些針對考生個體的詳細的診斷性資訊可以幫助考生了解自己語言能力的強弱項和未來學習的方向,有助于考生進行有針對性的自主學習。

從内容上看,PTE分數報告資訊豐富,除報告考生和考試資訊、總分、單項分以外,還提供詳細的診斷性資訊和未來建議,提升考試的促學功能;從呈現方式來看,報告有效地将數字、文字和圖表結合起來,但第三分區右側考生資訊部分的排版或可進一步優化,如合并到第一分區中可能會更加清晰。

總體來看,上述報告展現了一些優秀的分數報告的樣式和内容,包括利用不同形式呈現資訊(包括文字、數字、圖表)、對重要資訊進行突出強調、根據内容重要性合理分區、提供分數解釋性指南等;但也存在一些問題,如部分報告缺乏個性化回報資訊、缺少其他資源的具體位置資訊等。

考試分數報告研發的國際經驗及啟示

五、對大陸教育考試分數報告改革的啟示

大陸教育考試的種類多、規模大、社會影響深遠,對促進教育公平和社會穩定發揮着重要作用[26]。考慮到考試分數對社會的巨大影響,考試機構應充分認識考試分數報告的重要意義,積極探索分數報告的改革。具體而言,借鑒參考國際先進經驗做法,大陸未來的相關研究和實踐可從以下三個方面展開。

第一,整體規劃考試項目,從研發最初階段即對分數報告進行全面的設計和考慮。主要有四方面需要提前重點規劃:1)确定考試的性質和目的,充分考慮教師、學生、學校等相關方面的資訊需求和測評素養;2)将分數解釋指南等輔助性材料的研發納入設計方案,例如,在研發和評價分數報告樣例時,應運用不同的實證研究方法(如有聲思維、問卷、訪談、眼動實驗)調查各類報告使用者(如學生、教師、教育管理人員)對分數報告的态度、偏好、了解,并依據使用者的回報進行相應修改;3)分數報告發放後,采用追蹤研究、個案研究、民族志研究等研究方法持續調查報告使用者依據報告做出的決策和采取的行動,特别要關注分數報告對學生學習和教師教學的導向作用;4)積極借鑒國際前沿的分數報告開發架構和優秀案例,并詳細記錄和評價具體開發流程,收集分數報告開發的效度證據。

第二,進行理論建構和創新,形成本土化的分數報告開發和評價的行為準則和指導方針。理論建構包括分數報告的基本特征、開發步驟、評價方法和效度驗證等方面。行為準則和指導方針是對優秀分數報告應該遵循的原則和标準的界定,具體可參考2014年版《教育與心理測量标準》中有關分數報告的行業标準[16]119-144,以及國際測驗委員會(International Test Commission)于2014年釋出的分數報告品質标準的指導綱要[27]。建立本土化分數報告的行為準則和指導方針,有助于規範大陸教育考試分數報告的實踐,提高分數報告品質。

第三,積極探索資訊技術,特别是人工智能輔助下的線上互動型分數報告的設計開發和應用。線上互動型分數報告允許報告使用者選擇和排序所展示的資訊、探索更深層次的資訊、改變資訊呈現的方式,使針對性、個性化的立體多元的分數報告成為現實。然而,開發互動型報告的步驟和應遵循的原則與傳統書面報告有哪些異同,在技術上如何實作突破,都值得進一步研究探索。線上互動型分數報告的研制離不開跨學科領域專家團隊的通力合作,應充分挖掘認知科學、資訊設計學、美學、使用者界面研究等領域在分數報告設計開發中的應用和作用。

對考試分數的解釋始于人們閱讀分數報告,是以,分數報告的設計和發放直接影響考試效果[17]。優秀的分數報告應該以考試利益相關者能了解的方式給他們提供所需要的資訊,進而幫助他們采取合理的行動[2]。在深化新時代教育評價改革的背景下,國内相關領域應轉變和創新分數報告的設計理念,深入挖掘考試資料以提供多元、有效的分數報告,為教學和學習提供豐富的資訊回報。通過幫助和引導大衆正确了解和使用測試結果,建構和推進科學的教—學—評關聯體制,進而提升教育考試的整體品質。

(參考文獻 略)

(本文首次發表在《中國考試》2024年第6期)

考試分數報告研發的國際經驗及啟示