【專訪】越測越不準?黃宏宇教授破解古典測驗理論瑕疵,釋放個人真實內涵

作者:人文.島嶼 ( 採訪撰文:吳景濱|編輯:張傑凱|攝影:陳怡瑄 )

該如何瞭解一個人呢?測驗是專訪準黃真實很好的方式之一。

台灣是越測一個測驗導向的社會,我們藉由一份份有系統的宏宇測驗,意圖瞭解一個人的教授學業成績、能力評量、破解人格特質、古典個人態度傾向甚至情緒波動。測驗

這使我們從小到大經歷了無數次的理論測驗或考試,而所映照出的瑕疵分數,就代表了個人的釋放傾向、態度,內涵甚至價值。專訪準黃真實然而,越測這許多大大小小的宏宇測驗,真的教授能測出我們想要的答案嗎?

台北市立大學心理與諮商學系黃宏宇教授,認為過去編製的傳統測驗,存在一些假設瑕疵,例如最容易被一般大眾提出的詰問:「這個測驗真的準嗎?」。

在我們的成長經驗中,通常會將一份試卷的分數加加減減,最終得出的總分就是測驗的結果,同時也代表了我們某項特質或能力的程度。

這是傳統測驗普遍基於「古典測驗理論觀點」所編製出的處理方式。古典測驗理論方法相當簡便且快速,但是測出來的結果,真的能夠反映出每個人的真實表現嗎?

臺北市立大學心理與諮商學系黃宏宇教授台北市立大學心理與諮商學系黃宏宇教授 Photo Credit: 陳怡瑄

越測越不準?古典測驗理論的瑕疵

事實上,有別於固定的試題內容,人是更多變且容易被外在因素影響的個體。因此運用古典測驗理論加總各題項的分數,用總分表現個人特質的方式,忽略了每個人對於各題項認知處理的歷程。

黃宏宇說測驗的目的,是希望透過穩定、且有效的方式,真正測到個人的真實能力或態度傾向。但是運用古典測驗理論所編製的測驗,卻有著三大假設錯誤。

「其一是尺度問題」,黃宏宇進一步說明:「例如今天有一個題項詢問你的憂鬱程度,請你圈選1到5分,但是很有可能因為每個人對於分數的標準都不一樣,有人覺得4分很嚴重,有人可能覺得3分就很嚴重了。另外還有種可能是,假設最近考試壓力大,你覺得好像蠻憂鬱的,於是填答了4分甚至5分,這就是『等距假設』所導致的誤差。」

因為各題項的分數,在每個人的心理表徵並不見得是等距的。而如果將這些不等距的各題項分數加總,並聲稱該總分就是個人特質的話,便可能會影響測驗結果。

「另一種為『答題風格』的假設錯誤。」黃宏宇表示我們每個人,都有屬於自己答題的「反應風格(response style)」。

jajj4qgbiv1t08yrs5eb57kw4eb9dnPhoto Credit: 中央社

可以觀察一下自己或他人,在寫測驗的時候,是不是會有特別的填答傾向?例如有些人特別喜歡填答「是」──具贊同試題的傾向,或者相反。另外,還有些人反應比較大,在分數1到5的答案之中,不是將分數填答在「1」、就是填答在「5」,很難有中間值,這就是每個人的答題反應風格的不同。

另外黃宏宇指出華人普遍喜歡趨中的填答,「還好」、「沒感覺」是經常會遇到的中庸答案,其實這樣的答題反應風格,相當容易造成研究的偏誤。比如說,具趨中反應的受試者,填答「3」時,其內心反應的強度,搞不好已經和填答「5」的人相似。

「然而在古典測驗理論的觀點裡,無法改善這類偏誤,只能把它列為測驗是否有效的影響因子而已。」黃宏宇補充道:「事實上,每個人在個別試題的反應上,都會有不同的表現。」

最後第三個假設錯誤是「測驗難度的依賴性」。黃宏宇表示:「以古典測驗理論所編製出的測驗,同時拿給普通班、資優班、資源班進行施測,會發現不同的測驗結果。對於資優班而言,題目可能相對簡單;但是對於資源班來說,題目又會過難,此時就很難去定義測驗本身到底是偏難或偏易。」這是因為受試者具有不同族群的特殊性存在。

倘若具有不同族群的受試者同時進行同一份測驗,則因為群體間存在能力上的差異,進而會影響到測驗結果分析。此外,在古典測驗理論的信度模式下,測量結果的誤差不會存在群體間的變異,這也是一個很不合理的假設。試想一件M號的衣服,它給中等身材的人穿很合身,但是對於高大身材的人就不是那麼合適。測驗也是如此,中等難度的測驗適合一般學生,但不見得適合資優或資源班學生,因此測量結果的誤差就會不相同。

而遵循古典測驗理論的研究者,通常將測驗分數視為等距量尺來計分,忽略個體的認知反應歷程,以及忽視測驗結果誤差的變異性,並據此宣稱獲得研究結果。黃宏宇便強調,以此方法所得出的研究結果,可能是有瑕疵、或是不正確的。

當代測驗理論:試題反應理論(item response theory, IRT)

「試題反應理論則可以解決上述問題。」黃宏宇堅定道:「因為在試題反應理論所建構的機率參數模型裡,已將受試者的能力與試題的特性納入考慮,其中受試者的表現情形或反應機率,可以與內在潛在特質形成一種連續性遞增的數學函數。」

這條數學函數稱作「試題特徵曲線」(item characteristic curve, ICC),是由數學方程式所推導所形成的「機率參數模型」,可以用來表徵每一道試題的特性,包含試題難度、試題鑑別度與試題猜測度,並透過機率模型,顯示受試者的個體能力在不同試題上的答題表現。在這個架構之中,能提供更有效且貼近真實的能力或特質的測量。

具備「試題特徵曲線」的題項,可以估計出受試者在某一試題上的選答機率,以及受試者某種潛在特質的程度。當潛在特質的程度愈高(或愈強),在試題上的正確反應機率便愈大。

03-答題風格Photo Credit: 人文島嶼

黃宏宇指出:「有別於古典測驗理論以測驗總分來看待個人特質,試題反應理論是以單一題項觀點為出發的測量理論。」在這個關係線中,可看出試題是否能有效鑑別出個人的潛在特質,以及瞭解個人在答題上更細緻的樣貌。


苏ICP备16002488号-1