首页社会新闻正文

【專訪】越測越不準？黃宏宇教授破解古典測驗理論瑕疵，釋放個人真實內涵

夜上海论坛社会新闻 2024-05-11 01:08:18

作者：人文．島嶼（採訪撰文：吳景濱｜編輯：張傑凱｜攝影：陳怡瑄）

該如何瞭解一個人呢？測驗是專訪準黃真實很好的方式之一。

台灣是越測一個測驗導向的社會，我們藉由一份份有系統的宏宇測驗，意圖瞭解一個人的教授學業成績、能力評量、破解人格特質、古典個人態度傾向甚至情緒波動。測驗

這使我們從小到大經歷了無數次的理論測驗或考試，而所映照出的瑕疵分數，就代表了個人的釋放傾向、態度，內涵甚至價值。專訪準黃真實然而，越測這許多大大小小的宏宇測驗，真的教授能測出我們想要的答案嗎？

台北市立大學心理與諮商學系黃宏宇教授，認為過去編製的傳統測驗，存在一些假設瑕疵，例如最容易被一般大眾提出的詰問：「這個測驗真的準嗎？」。

在我們的成長經驗中，通常會將一份試卷的分數加加減減，最終得出的總分就是測驗的結果，同時也代表了我們某項特質或能力的程度。

這是傳統測驗普遍基於「古典測驗理論觀點」所編製出的處理方式。古典測驗理論方法相當簡便且快速，但是測出來的結果，真的能夠反映出每個人的真實表現嗎？

越測越不準？古典測驗理論的瑕疵

事實上，有別於固定的試題內容，人是更多變且容易被外在因素影響的個體。因此運用古典測驗理論加總各題項的分數，用總分表現個人特質的方式，忽略了每個人對於各題項認知處理的歷程。

黃宏宇說測驗的目的，是希望透過穩定、且有效的方式，真正測到個人的真實能力或態度傾向。但是運用古典測驗理論所編製的測驗，卻有著三大假設錯誤。

「其一是尺度問題」，黃宏宇進一步說明：「例如今天有一個題項詢問你的憂鬱程度，請你圈選1到5分，但是很有可能因為每個人對於分數的標準都不一樣，有人覺得4分很嚴重，有人可能覺得3分就很嚴重了。另外還有種可能是，假設最近考試壓力大，你覺得好像蠻憂鬱的，於是填答了4分甚至5分，這就是『等距假設』所導致的誤差。」

因為各題項的分數，在每個人的心理表徵並不見得是等距的。而如果將這些不等距的各題項分數加總，並聲稱該總分就是個人特質的話，便可能會影響測驗結果。

「另一種為『答題風格』的假設錯誤。」黃宏宇表示我們每個人，都有屬於自己答題的「反應風格（response style）」。

可以觀察一下自己或他人，在寫測驗的時候，是不是會有特別的填答傾向？例如有些人特別喜歡填答「是」──具贊同試題的傾向，或者相反。另外，還有些人反應比較大，在分數1到5的答案之中，不是將分數填答在「1」、就是填答在「5」，很難有中間值，這就是每個人的答題反應風格的不同。

另外黃宏宇指出華人普遍喜歡趨中的填答，「還好」、「沒感覺」是經常會遇到的中庸答案，其實這樣的答題反應風格，相當容易造成研究的偏誤。比如說，具趨中反應的受試者，填答「3」時，其內心反應的強度，搞不好已經和填答「5」的人相似。

「然而在古典測驗理論的觀點裡，無法改善這類偏誤，只能把它列為測驗是否有效的影響因子而已。」黃宏宇補充道：「事實上，每個人在個別試題的反應上，都會有不同的表現。」

最後第三個假設錯誤是「測驗難度的依賴性」。黃宏宇表示：「以古典測驗理論所編製出的測驗，同時拿給普通班、資優班、資源班進行施測，會發現不同的測驗結果。對於資優班而言，題目可能相對簡單；但是對於資源班來說，題目又會過難，此時就很難去定義測驗本身到底是偏難或偏易。」這是因為受試者具有不同族群的特殊性存在。

倘若具有不同族群的受試者同時進行同一份測驗，則因為群體間存在能力上的差異，進而會影響到測驗結果分析。此外，在古典測驗理論的信度模式下，測量結果的誤差不會存在群體間的變異，這也是一個很不合理的假設。試想一件M號的衣服，它給中等身材的人穿很合身，但是對於高大身材的人就不是那麼合適。測驗也是如此，中等難度的測驗適合一般學生，但不見得適合資優或資源班學生，因此測量結果的誤差就會不相同。

而遵循古典測驗理論的研究者，通常將測驗分數視為等距量尺來計分，忽略個體的認知反應歷程，以及忽視測驗結果誤差的變異性，並據此宣稱獲得研究結果。黃宏宇便強調，以此方法所得出的研究結果，可能是有瑕疵、或是不正確的。

當代測驗理論：試題反應理論（item response theory, IRT）

「試題反應理論則可以解決上述問題。」黃宏宇堅定道：「因為在試題反應理論所建構的機率參數模型裡，已將受試者的能力與試題的特性納入考慮，其中受試者的表現情形或反應機率，可以與內在潛在特質形成一種連續性遞增的數學函數。」

這條數學函數稱作「試題特徵曲線」（item characteristic curve, ICC），是由數學方程式所推導所形成的「機率參數模型」，可以用來表徵每一道試題的特性，包含試題難度、試題鑑別度與試題猜測度，並透過機率模型，顯示受試者的個體能力在不同試題上的答題表現。在這個架構之中，能提供更有效且貼近真實的能力或特質的測量。

具備「試題特徵曲線」的題項，可以估計出受試者在某一試題上的選答機率，以及受試者某種潛在特質的程度。當潛在特質的程度愈高（或愈強），在試題上的正確反應機率便愈大。

黃宏宇指出：「有別於古典測驗理論以測驗總分來看待個人特質，試題反應理論是以單一題項觀點為出發的測量理論。」在這個關係線中，可看出試題是否能有效鑑別出個人的潛在特質，以及瞭解個人在答題上更細緻的樣貌。

夜上海论坛

【專訪】越測越不準？黃宏宇教授破解古典測驗理論瑕疵，釋放個人真實內涵

越測越不準？古典測驗理論的瑕疵

當代測驗理論：試題反應理論（item response theory, IRT）

「為了見前女友一面」 41歲男早晨放大龍炮嚇壞住戶

国网沂南县供电公司：开展络安全专项督查，筑牢网络安全屏障

越測越不準？古典測驗理論的瑕疵

當代測驗理論：試題反應理論（item response theory, IRT）

「為了見前女友一面」 41歲男早晨放大龍炮嚇壞住戶

国网沂南县供电公司：开展络安全专项督查，筑牢网络安全屏障

友情链接