不具有「可再現性」的研究,還能算是科學嗎?

撰文:帕魯斯(Shannon Palus)
翻譯:林慧珍

寇爾克(Katie Corker)想確認一項心理學實驗中的不具咖啡溫度,她正在重做2008年發表於著名期刊《科學》的有可研究一項研究,這項研究吸引媒體熱烈報導。再現該原創研究結果顯示,性的學嗎手握微溫物品能使人展現溫暖的算科舉動。然而,不具當寇爾克嘗試追溯實驗的有可研究每個步驟時,卻發現許多未知數:遞送到受試者手中的再現熱咖啡,溫度是性的學嗎多少?杯子在他們手中冷卻的速度有多快?

寇爾克是美國大峽谷州立大學的心理學家,正在嘗試少有科學家會做的算科事:仔細重做研究並公佈結果,她希望了解,不具如果換成不同的有可研究實驗室和受試者進行最初的研究,得到的再現結果是否相同?當時發表在《科學》的研究僅由一組研究團隊執行,他們要求94名受試者各自握著不同溫度的性的學嗎咖啡或熱敷墊。理論上,算科科學研究應該要能做到這樣:研究人員立基於前人的研究發現,並且不斷自我修正。

數十年來,科學界一直存在一個公開的秘密──某些領域的文獻錯誤百出。生醫領域的真實情況在2012年變得清晰可見。當時,貝格里(C. Glenn Begley)是安進公司副總裁兼全球血液學及腫瘤學研究主持人,他負責監督癌症藥物的開發,部份研發內容是根據學術界的突破發現。貝格里在這產業已經待了10年,他很想知道:為什麼有些前景看好的藥物試驗,後來卻陷入膠著?

他開始翻找公司的檔案資料,結果令人難以置信:問題通常出在施行臨床試驗前的研究。他的團隊在投入資金和資源開發以該研究為基礎的療法之前,必須先進行複核。貝格里現任澳洲生展公司(BioCurate)執行長,他說:「令我感到害怕的是,我們無法再現90%已發表的內容。」之後的一項研究顯示,美國生醫領域每年因臨床前的再現研究失敗,浪費了282億美元。貝格里甚至把安進公司的科學家送到其他實驗室,嘗試再現他們的實驗,結果也失敗了。

約莫同時,這種危機在心理學領域開始顯現出來。美國維吉尼亞大學心理學家諾斯克(Brian Nosek)發起的「實驗可再現性計畫:心理學」當中,有一部份研究召集近300名科學家,嘗試再現該領域的100篇論文研究。2015年,他們宣佈只有36%的實驗與原始研究有一致的顯著結果。

雖然這類指標性的再現實驗以生醫及心理學領域為主,但問題並不僅限於這些領域。美國喬治華盛頓大學的工程師巴爾巴(Lorena A. Barba)主要研究計算流體力學。她與一名學生花了整整3年重建實驗室既有的複雜模擬系統──模擬蛇如何從樹枝躍下、透過氣流滑翔並在空中擺動身軀。新的結果與原先一致,但她發現修改他人的程式碼來拼湊原始研究,很可能是一場噩夢。

她遇到的問題基本上與寇爾克在咖啡實驗的經歷相仿──科學家專注發表研究結果,不一定會留意每一個不起眼的步驟。寇爾克說:「留下的記錄並不多。」不過她很幸運,最初咖啡實驗的第一作者「非常願意和我們合作。」寇爾克還找了化學家合作,把實驗裝置的溫度變化速度標準化。她說:「這比我做過的原創研究更具挑戰性。」

長期以來在科學界的積習(例如擔心被搶先一步發表技術,而不願分享),往往與實驗的再現性背道而馳。巴爾巴的研究源自美國新墨西哥州神秘的洛沙拉摩斯(Los Alamos)實驗室,當時曼哈頓計畫的研究人員在該實驗室運用早期電腦計算氣爆與能量如何引爆炸彈,設計第一批核子武器。當然,曼哈頓計畫提供科學強大的推動力,當時的科學家強力阻止外人再現他們的研究。

此外,期刊及教職審查委員會通常會青睞嶄新、亮眼的研究成果,而非嚴謹建構在既有文獻基礎的穩定進展。加州舊金山州立大學社會與人格心理學家泰特(Charlotte Tate)說:「我受的專業訓練就是試圖找出意想不到的效果。」她開玩笑表示,與她同領域的成員「緊緊追隨這種模式,我們應該要在每日秀節目上登台演出。」這樣的心態不全然是虛榮作祟,因為亮眼成果往往是工作的保障。默默查證他人做過的實驗,或花額外時間確保他人容易理解程式碼,並不會幫助研究人員受到矚目,或從一堆履歷中脫穎而出。

不少人強調,加強研究人員的訓練,有助於解除這類危機。例如撰寫正確的實驗方法或仔細編寫程式碼,讓他人更容易理解。巴爾巴十分認同這些看法,她建議,如果研究過程必須使用程式碼,研究人員應該參加軟體規範課程,並在研究中提供完整的編碼記錄。巴爾巴也使用程式版本控管技術,把程式碼所有的修改記錄下來,這讓程式碼的修改過程盡可能清楚呈現。令她費解的是,這套工具是軟體開發的標準配備,卻未應用在科學界。

美國生亮公司(BioBright)的弗萊加(Charles Fracchia)嘗試透過該公司開發的工具「達爾文同步分析系統」(Darwin-Sync),增進生醫實驗記錄的詳盡程度。弗萊加說:「做實驗與實驗記錄之間,基本上存在著張力。」這套系統鉅細靡遺記錄每台儀器的資料,包括看似無關緊要的細節(例如電腦是插電還是電池供電、房間裡的環境光量),以防日後才發現這些細節有其價值。在寇爾克企圖再現的實驗當中,如果最初的研究對杯子溫度有更詳實的測量,就能提供更多參考訊息,讓她之後能夠再做一次實驗。

有了耗時的解決方法和昂貴的設備,還不足夠。巴爾巴說:「把事情做對,沒有任何回報。」諾斯克認為,關鍵在於重建獎勵措施,以確保「對科學家有益就是對科學有益」,例如計畫贊助者只投注資金在研究成果透明化的計畫。2016年,美國國家衛生研究院(NIH)公告新的申請須知及審查提問,鼓勵尋求補助的科學家提高再現性。NIH開始要求研究人員提供更多資訊,以說明申請的新研究是依據先前研究的哪些基礎,並列出可能影響研究的變因。例如,之前的研究常忽略大鼠的性別,導致許多研究只援引在雄性大鼠身上的發現,而以偏概全。

上述資助者提出的問題,也可能是期刊與審查者會詢問的問題。對於諾斯克來說,解決方式在於「登錄報告」,這是一種事先登錄實驗的制度,科學家在執行實驗前必須先提交研究分析及計畫。同儕審查者接著評估方法論是否合理、是否立基於過去的發現之上。該期刊必須承諾,無論最後成果為何,都將刊登。發表科學論文的依據應該是深思熟慮的實驗,而非亮眼的結果。

有些人懷疑這樣的改變是否會使科學產出變得無趣,諾斯克認為情況並非如此,他在即將完成的研究中,檢視「預先登錄」研究發表後的影響及品質,初步結果顯示,這些研究被引用的次數與傳統論文不相上下。不過他也指出,過分依賴「預先登錄」的研究有可能矯枉過正,轉而鼓勵較安全保守的研究。他認為這種模式可與傳統只看結果的模式並行,後者有利於「不期而來的意外發現」。

較難解決的問題是,研究人員必須爭取突破性成果,以保住飯碗。諾斯克指出,這需要更大規模的文化變革。現在藉由照亮死路來擴展知識地圖,好比小心翼翼走向迷人路徑卻徒勞而返,這樣做還不足夠。我們所處的世界尚未有人因為查證事實而功成名就。

然而,實驗結果無法再現,並不意味著科學會徹底毀滅。美國印第安納大學布隆明頓校區的心理學家希弗林(Richard M. Shiffrin)說:「進步是踩著失敗而來。」他質疑人們對這種「危機」的關注,認為過度關注研究的再現性,會讓科學的進步蒙上陰影。這些在意再現危機的人不全然反對希弗林的看法。貝格里指出,專注再現問題確實有後遺症,許多研究結果在仔細檢視之下都無法過關,可能導致藥物上市的速度更慢、價格更高,他說:「我們浪費很多時間讓一些混淆視聽的事牽著鼻子走。」

咖啡效應實驗就是其中一例,寇爾克用冷、熱敷墊重新進行實驗,最後並未證明手握微溫物品能讓人表現得更溫暖。儘管最初的研究發表在著名期刊,再現實驗可能只出現在名氣較小的期刊。不過,這也算是另類的突破──比較不那麼引人注目的突破。

本文獲《科學人雜誌》、《科學人粉絲團》授權刊登,原文刊載於此。

相關文章︰

  • 「顯著」的問題:p值是判斷研究成敗的過時指標嗎?
  • 頂尖期刊上的社科實驗結果也未必可靠,但這不是壞消息
  • 270科學家合作,僅能重複36%心理學實驗結果

責任編輯:朱家儀
核稿編輯:翁世航

苏ICP备16002488号-1