一位耶魯大學教授的統計箴言
Statistics As Principled Argument
原文作者╱
Robert P. Abelson
作  者╱
羅伯特.艾貝爾森
譯  者╱
杜炳倫
出版社別╱
五南
書  系╱
博雅科普
出版日期╱
2019/06/01   (1版 1刷)
  

若無法看見預覽文件請按此下載

即日起五南舊官網僅提供書籍查詢,如欲購書,請至五南新官網 https://www.wunan.com.tw/
I  S  B  N ╱
978-957-763-407-8
書  號╱
RM45
頁  數╱
324
開  數╱
25K
定  價╱
450 (特價 356)

※書籍推薦人
雋永推薦

巴黎風險資本公司 Hardware Club 管理合夥人 楊建銘
台灣大學心理學系 鄭伯壎 教授兼系主任

羅伯特.艾貝爾森(Robert P. Abelson),在美國耶魯(Yale)大學心理系教授統計學已經42年。使統計更生活化與更有意義,是他的座右銘。他在麻省理工學院(M.I.T.)主修數學,研究所畢業於普林斯頓(Princeton),專長為心理統計學。他的研究成果涵括人工智慧、社會心理學、政治心理學以及數學統計。他是美國統計協會以及美國人文與科學院會員。於1986年,他榮獲美國心理協會頒發的傑出科學貢獻獎。
※譯者簡介
杜炳倫
杜炳倫(M.Ed., University of Idaho)為資深教師,美國愛達荷大學課程與教學碩士,美國田納西大學諾克斯維爾校區(University of Tennessee, Knoxville)應用教育心理學博士班。赴美留學期間,有幸於田納西大學校長講授獎學者暨美國教育研究協會主席--史凱樂.哈克博士(Dr. Schuyler Huck)門下學習。曾榮獲田納西大學教育、健康與人類科學學院,特拉維斯.霍克(Travis Hawk)學術傑出獎。其英文著作〈百分位數與百分等級〉(Percentile and Percentile Rank)」被收錄於美國聖哲(Sage)出版商所發行的《測量與統計百科全書》(Encyclopedia of Measurement and Statistics)。中文著作有《上學的代價》,其長銷譯作《解讀統計與研究》,拯救了無數研究所學生,並且廣為兩岸四地各大學圖書館所收藏。熱銷譯作《34個讓你豁然開朗的統計學小故事》廣受好評。經營的統計教學網站,資源豐富,無惑不解。平時喜好從事有益於身心健康的各項活動。
譯者網站:http://mypaper.pchome.com.tw/readingstatistic

序言
譯者序
艾貝爾森的八條金律

箴言 1 以統計發聲
  1-1 對於統計的誤解
  1-2 以統計來主張:比較與解釋
  1-3 虛無假設檢定的語言與限制性
  1-4 有說服力的爭論:MAGIC標準
  1-5 風格與慣例
  1-6 底線

箴言 2 基本論辯與機率的角色
  2-1 隨機生成過程
  2-2 隨機抽樣過程
  2-3 總結

箴言 3 效力的大小
  3-1 機率測量值
  3-2 效力量
  3-3 信賴區間

箴言 4 論辯的風格
  4-1 狂妄、古板、自由、以及保守風格
  4-2 單尾、雙尾、以及不對稱檢定
  4-3 應用於同一組數據的替代檢定
  4-4 有缺陷的觀察值
  4-5 同組數據裡的多重檢定
  4-6 陳述與詮釋p-值
  4-7 最後的分析

箴言 5 察覺可疑之處
  5-1 怪異的觀察值分配
  5-2 發生不可能的分數
  5-3 奇怪的檢定統計值
  5-4 類比統計值之間的不一致
  5-5 類比統計值有著過多的一致性
  5-6 覺察可疑的警示

箴言 6 結果的清晰度:作用與限制
  6-1 作用與限制
  6-2 作用與知識的演化
  6-3 平均數的比較
  6-4 重構結果以獲得更好的清晰度
  6-5 多重比較
  6-6 對照比較
  6-7 不只一個依變項
  6-8 進一步的評論

箴言 7 效果的普遍性
  7-1 普遍性的性質
  7-2 研究內的處置-背景交互作用
  7-3 跨研究的普遍性:後設分析
  7-4 研究內與研究間普遍性的比較
  7-5 最後的警示

箴言 8 爭論的關注性
  8-1 統計可以是有趣的嗎?
  8-2 理論關注性
  8-3 驚奇性
  8-4 重要性

箴言 9 論據的可靠性
  9-1 為何研究主張不可信
  9-2 論辯的結構
  9-3 方法學上的人為因素
  9-4 對方法學的批評所帶來的影響

參考文獻
作者索引
內文索引

人壽保險業務的
入門與命脈:人
壽保險推銷循環
十步
50則非知不可
的企業管理實務
最新知識
巷子口經濟學
50則會計主管
非知不可的實務
經驗傳承
美學原來這麼有
趣:顛覆傳統教
學的18堂美學
課 (限中國大
陸以外地區銷售
)
哲學原來這麼有
趣:顛覆傳統教
學的18堂哲學
課 (限中國大
陸以外地區銷售
)




譯者序

與本書結緣大約在十年前。如今,可能由於人類集體潛意識對統計知識的渴望,所以在因緣際會之下,透過我,把本書翻譯出來,以饗廣大的中文讀者。
     翻譯已逝作者的大作有兩點好處。第一,不會有改版的問題;第二,內容扎實,禁得起時間的考驗,因此才能一再地出版,即使作者已不在人世。這讓我想起了當年在美國留學時,我的指導教授喜歡帶我到校內的一間二手書店喝咖啡,恩師會順道挑選一本二手詩集。端詳著他把二手書看得比新書還要珍貴的模樣,不禁令我這個慣於採購新書的東方學生,起了好奇心。
     的確,老書自有其魅力。例如:1963年出版的實驗與類實驗設計(作者為Campbell與Stanley),是我讀過最精采的研究設計類書籍,因為內容精粹,敘述清楚,舉例引人入勝。把它從美國亞馬遜網路書店購買回來的時候,發現內文有前人的重點注記,還有疑似圖書館藏書的編號,這真的讓我有種新書不如老書的感覺,因為每一位讀過本書的人,都賦予了它新的生命。所以,老書的魅力,來自於內容與痕跡。
     這本書的確不年輕了。它在1995年出版,於2009年──作者去世幾年後──又再度重印問世。在這個鼓吹汰舊換新的年代,也許本書早已被圖書館給隨意丟入了資源回收桶,取而代之的是最新出版,但卻真的值得資源回收的新書。我為什麼這麼說?因為本書內容能夠啟迪讀者的統計與研究智慧。
     經驗貧乏的研究者,喜歡堆砌統計文字,彷彿這就代表了自己的學術成就。然而,一堆令人摸不著頭緒的統計段落,加上不知所云的內文,再配合上一點也不令人感興趣的標題,只會讓人望而生畏,不想閱讀。一篇沒人想閱讀的研究報告,遑論能增進什麼人類福祉了。本書內容能幫助讀者消弭這種弊病。
     閱讀本書需要具備一些基礎統計學知識,如果有一點點的實務經驗,讀起來會更有體悟。學造句就是要學寫作文;學統計就是要學會作研究。要很有效率且充滿自信地,寫出一篇能應用至日常生活當中的研究報告,而且還能得意洋洋地解讀與評論他人的研究,一本基礎與一本進階統計類教科書必不可少,本書可以幫助你達到這個理想。
     書中引用的幾乎都是重量級的真實研究。其中,Milgram(1963)著名的服從研究,甚至在2015年被拍成了電影(Experimenter)。本書的大量引用特色,是一般統計學教科書所缺乏的,因為你不會在一般統計學教科書裡,看見如此詳盡的引用資訊。據此,閱讀本書不但能增進讀者的論文寫作能力,還能精進讀者的統計論述智力。可以想見,本書含金量之高。
     除了重量級的引用訊息與範例之外,有的實例來自於耶魯大學的學生作業。閱讀這些例子,可以一窺耶魯大學教授是怎麼培育學生的,這也彷彿得到了耶魯大學教授的指導。所以,就算讀者不是就讀於名牌大學,只要熟稔本書內容,躬身實踐,那麼一些外在的環境影響,對讀者而言,也就不再具有任何的意義了。
     市面上有許多如何使用統計軟體的書籍。初學統計的學生,通常也會先從這一部分著手,這並沒有錯。但是,輸出的數值意義何在?這是許多統計學教科書所沒有深入探討的。對我而言,統計軟體的標準化操作,在網路世界輕易就可以搜尋得到,似乎連參考書都不必了。然而,個人一生的統計教學精華,卻是「網路搜尋」不到的。
     我很欣慰能把本書翻譯出版。英文原版索價將近40美元,現在你只需要付出極低的代價,就能得到幾乎是原汁原味的東西了。這也是我從事統計教科書翻譯工作的初衷──讓知識產權降價,造福廣大的中文讀者。願展讀愉快!

杜炳倫

1.1 對於統計的誤解
連學生都會誤解統計,遑論一般大眾了。公眾不怎麼信任統計,因為媒體常常使用誤導的統計聲明,試圖欺騙他們。例如:現任政治人物,引用樂觀的經濟統計,不管其對手提出經濟一片破敗的證據。藥品廣告喜歡提出醫生推薦的比例,或進入血液的平均時間,來進行洗腦宣傳。公眾懷疑,在特定的利益驅使之下,鼓吹者會不擇手段地使用有利於他們的任何數值。
     對不良廣告的懷疑是合理的,但把錯都怪罪到統計身上就不理智了。當人們說謊時(人們時常這樣做),我們不會怪罪語言本身。是的,你也許會說,人們比較能夠聽出何為謊言,但對於統計數值,就無此分辨能力。對此,我會回答,也許對、也許錯。當統計分析以負責任的態度執行時,全體大眾的不信任主義,反而會損害其潛在助益,與其無腦地把所有統計數值都當作垃圾來看待,倒不如以更成熟的態度學習統計,試著分辨什麼是誠實有用的結論,什麼是詭計或愚昧。
     愈來愈多的大學生學習統計,這是個好兆頭。不幸的是,典型的統計課程並沒有處理好統計聲明的論辯性與得失性。結果是,學生們會慢慢發展出錯誤的統計觀念。他們尋求確定與精確,強調計算而非統計分析所提煉出的觀點。他們傾向於機械式地陳述統計結論,避免具有創造力的論據(以免被控告有做手腳的嫌疑)。
     本書的目標在於,重新賦予統計論據力與敘事力。我的中心思想是,優質統計涉及有原則的論述,傳達引人入勝且取信於人的觀點。
     在統計陳述裡,難免有一些主觀表達,這是無可避免的,即使是一本正經的統計檢定發明者也承認。例如:Egon Pearson(1962),回憶他與Jerzy Neyman的工作:「我們在數學模型上,保留一點可供個人直覺判斷的缺口」(p. 395)。與此同時,Sir Ronald Fisher(1955),指責Neyman和Pearsony,作出過度機械化的建議,他本人強調實驗是連續的過程,需要一群自由心智在共享資訊的基礎上,做屬於他們自己的決定。
     當你使用統計時,靈活的論辯與詳細說明的確很重要。數據分析不應該變得像是無頭蒼蠅。它應該導出引人入勝的主張;它應該對那些有見識的聽眾,說出一個感人的故事,而這應該藉由明智地詮釋實驗與觀察所得到的適當證據來達成。

1.2 以統計來主張:比較與解釋

  統計故事裡的情節是如何發展的?本書大部分的內容,把統計與系統性的研究計畫連結起來。但一開始,讓我們討論據稱是具有新聞價值的統計「事實」,這些事實被四處旅行的記者隨手拾起,並且呈現在傳播媒體裡。

單獨的統計數值
許多單獨的統計數值,像是:「負有盛名的交響樂團指揮,其平均預期壽命為73.4歲。」(Atlas, 1978),或是「每天看3-4小時電視的成年人,其高膽固醇流行程度幾乎是每天看不到1小時電視的兩倍。」(Tucker & Bagwell, 1992),亦或是「……到了35歲還單身的大學教育程度女性,只有5%的機率會走入婚姻。」 ("Too Late," 1986; discussed by Cherlin, 1990; and Maier, 1991)。
  預期壽命統計的關鍵點應該在於,交響樂職涯是如此地令人滿足,以致於延長了壽命。膽固醇的故事有點令人迷惑,言下之意可能是要告訴我們,一邊看電視一邊吃垃圾食物的危害。婚姻統計奠基於對未來趨勢的不可靠推測,而解釋可以因人而異。
     以孤立的統計數值來作出主張,會使讀者喪失評估其意義的背景。要活到73.4歲有多不尋常?「幾乎兩倍」是否意味著我不應該看電視?如果不能回答諸如此類的問題,那麼對於此類數值宣言的自然反應就是,「那又如何?」

比較的重要性
在女性結婚比率的例子裡,已經獲得背景脈絡,而大部分的人會認為,5%的結婚率與一般情況(或50年前)比較起來,是相當低的。「比較」(comparison)的概念很重要。有意義的統計報告,必要涉及觀察值與期望值之間的差異,或觀察值之間的差異。觀察到的差異導致為何如此的問題,近而引發解釋因子的追尋。因此,35歲大學教育程度女性5%的結婚率,與一般80%-90%結婚率的印象比較之下,引起了這樣的問題,像是「我在想為什麼會這樣?是職涯模式缺少婚姻的吸引力,還是缺少黃金單身漢?……或者也許5%奠基於錯誤的統計程序。」這些可能的解釋促使研究者(或其批評者),重新分析現存的證據與假設,或繼續蒐集新數據,以便得到更合意的解釋。
     除了提問為何總結統計值之間,或總結統計值與基線之間,會有差異的這類標準統計問題之外,也偶爾會發生需要去解釋缺少差異的情形。當我們所期待的差異沒有出現時,我們會問「為何沒有差異?」例如:伽利略(Galileo)展示輕物和重物自由落體墜下同一距離所花的時間是一樣的。觀察到的恆常,與重物下墜較快的強烈直覺相反,因此丟出了一個需要去解釋的謎團。
比較的標準
在解釋過程剛開始的時候,會遇到一個麻煩。那就是,給你一個統計值,許多不同的觀察值與期望值能夠被用來當作比較的標準。什麼與什麼比較,對於問題與答案有很重要的影響。為什麼問題要具有焦點(focus)。 負有盛名交響樂團指揮的長壽現象(Atlas, 1978),提供了一個很好的例子。要以什麼來比較其73.4歲的平均壽命呢?交響樂團演奏者?不負有盛名的指揮家?一般大眾?
     研究裡的指揮家都是男性,而幾乎都在美國生活(雖然在歐洲出生)。作者使用美國男性平均預期壽命為比較標準,這在當時是68.5歲。所以,這暗示指揮家多享受了5年歲月,而作者跳至結論說,指揮行為是長壽的原因。自從此研究出現以來,就得到許多人的關注,甚至有人闡述其中的因果鏈結(例如:健康專欄作家Brody於 1991年寫道:「我們相信,手臂運動對指揮家的長壽起了作用。」(p. B8))。
     然而,Carroll(1979)在其對此研究的批評中指出,期望壽命的比較有個很容易被忽略的錯誤:平均期望壽命包含死去的嬰兒與活了很多年的成人。因為不可能有嬰兒指揮交響樂團,所以嬰兒壽命的數據應該要被排除在外。那青少年又如何?他們同樣也過於年輕以致於不會成為交響樂團指揮家,所以他們的壽命也要被排除在外。Carroll主張,當上交響樂團指揮的平均估計年齡至少在32歲。美國男性已達32歲的平均預期壽命為72歲,所以負有盛名交響樂團指揮家的享樂延壽被大大地縮短了,這很顯然是比較的錯誤。我們可以持續微調比較組,使那些非指揮家在其他方面愈來愈類似指揮家。深思熟慮過的比較標準(通常是「控制組」),能夠充分地減少誤導性統計詮釋的發生。

在候選的解釋中進行選擇
對於任何觀察到的比較差異,一些可能的候選解釋會出現在研究者(和批評者)面前。在特定的情況下,這些解釋在其實值性與普遍性原因方面,可能會有很大的不同,範圍從觀察到的差異,被視為是偶然事件或人為瑣碎而摒除,到觀察值支持或削弱某個普遍的理論。在我們的交響樂指揮範例裡,候選解釋至少有:(a)結果偶然出現在所計入的特定指揮家樣本裡;(b)比較標準仍然具有瑕疵,因為沒有把無指揮家入選資格的短壽子群計入(例如:慢性病患);以及(c)指揮家確實比較長壽,因為長壽與傑出音樂天賦有著某種共同的起源根據,指揮活動有益健康(或是在一大堆有益健康的活動裡,樂團指揮是其中一項),或是有益健康的某事物與指揮有關,像是得到他人的奉承,或對他人有大量的控制權。
     統計分析與推論的任務,是要幫助引導在可能的候選解釋中進行選擇。雀屏中選的解釋變成主張。(如果這個用詞有點強迫的味道,我們也可以用觀點這個比較柔和的詞語。)在樂團指揮的範例裡,提出主張是冒風險的,因為缺少相關數據幫助我們篩除可能的解釋。知名鋼琴家、演員、教授、律師等等的預期壽命數據會有所幫助;早早退休(非健康原因)的知名指揮家預期壽命;知名指揮家親人的預期壽命(理想上,雙胞胎──但可能不會有足夠的案例);以及持續活躍與不活躍老人的預期壽命差異(除了健康狀況不佳以外的原因)。
     實驗主義者會對這些必要證據的空泛標準感到絕望(你怎麼定義「健康狀況不佳」、「活躍」、「退休」),而不祥的預感是,可能與長壽有關的變項就是有那麼多(有些只是未知)。如果能夠孤立與操弄假定的因子,那麼實驗研究者會感到舒服一點。實驗者,不同於觀察者,試圖去創造(或重建)比較差異,而非僅僅消極地觀察。
     考慮到樂團指揮是如此地滿意個人的工作,以致於活得比沒有指揮活動的一般民眾還要長的可能解釋。

試圖去重建此效果的標準實驗方法是,聚集一群有潛力的傑出指揮家,隨機安排一半去擔任知名交響樂團指揮,而另一半較少涉及職涯活動,然後蒐集他們每一個人的壽命數據。當然,這種檢定是不切實際的。我提到它,是因為它啟示了在概念上相近,並且有可能做到的實驗。例如:我們可以招募一群老年人,隨機分派一半的人從事社會或身體活動,或是擁有社會控制權,另一半沒有接受這些介入處置,然後監控他們隨後的幸福感與健康狀態。 以指揮家的例子而言,幾乎很難去詮釋觀察值的因果鏈結。因此,奠基於此類數據的主張,就顯得有點站不住腳,而也應該被高度質疑。比較差異的合理解釋,端賴控制良好的比較。所以,在本書裡,我們強調實驗數據。(有時,研究者也可以藉由匯集田野調查的證據線索,來做好研究。)如果有許多互相關聯的數據,那麼解釋的品質就能夠戲劇性地改進,其中有一些重複論證核心或與其緊密關聯的結果,一些排除了替代性的解釋,其他則顯示當解釋因子缺席時,結果就不會出現。

系統解釋對照機率解釋
為了理解統計論辯的性質,我們必須要考慮哪一種類型的解釋夠格作為為什麼問題的答案。一種特有的類型,機率解釋,被這樣表達在陳述裡,像是「這些結果很容易可以歸因於機率」,或者「隨機模型充分適合這些數據」。的確,在科學邏輯中的統計推論,罕有被迫把機率解釋作為替代性解釋,或系統解釋除外的解釋。
     在接下來的討論裡,我們假定數據來自於在特定領域,對一組事物的單一測量程序。我們假設,組成數據組的觀察值彼此不同,並且我們要問為什麼。系統因子,有條理地偏好影響特定子群觀察值,例如:持續活躍的老年人可以多活一定的歲數。機率因子,偶然地影響每一個觀察值,而對任何特定觀察值的影響程度是不一定的。


誇大系統因子影響力的傾向
缺乏經驗的研究者與外行人等等,經常會高估系統因子相對於機率因子的影響力。當業餘心理學家與自稱是世界之主的人,充斥在我們生活周遭時,我們會誇大我們預測他人行為的能力,我們很難以統計來思考人類行為。
     Kunda與Nisbett(1986)指出,在人類能力這方面,特別是運動員的能力,在不同場合的表現,存在某種程度的難以理解變異。例如:我們知道網球選手每天的表現會有起伏,所以表現的樣本必要能夠導致對其能力做出可靠的判斷。即使如此,在許多運動場合裡,機率影響力的相對重要性仍嚴重被低估。Abelson(1985)詢問棒球老手心理學家,去斟酌是否大聯盟棒球打擊者,在指定的回合裡能擊出,並且估計這事件的變異比例,解釋為不同打者在技術上的差異,對照機率因子對打者擊出的影響力。中位數估計值大致為25%,但確實答案只有不到1%的一半!部分可歸因於衡度兩變項關係的「解釋變異」屬性(Rosenthal & Rubin, 1979),但更令人感興趣的是,我們這些棒球迷,傾向於把0.330打擊率的球員,視為整場比賽輸贏的關鍵英雄,而認為0.260是實際上比賽進行當中,肯定會有的打擊率。
     機率變異的低估延伸至其他領域。像是抽樂透號碼,實驗對象在許多情況下的行為表現,彷彿認為結果可以透過某種控制而被操弄(Langer, 1975)。Kunda與Nisbett(1986)指出,就性格而言,奠基於單一經歷所做出的推論,含有過度自信的成分,忽略了時空的可能影響力。例如:我們直覺地認為,在某個場合多話的人,就大概是一位多話的人了(也就是「根本歸因錯誤」(Ross, 1977))。
     以上這些論點,闡釋了直接跳至系統解釋而不考慮機率解釋的一種自然傾向。身為研究者,我們需要有原則的數據處理程序,以使我們遠離過度詮釋數據的窘境。我們需要了解,即使統計計算帶著數值精確度的氛圍,當爭論者反對的是不確定性的背景時,辯論必定會圍繞著統計結論。在篩除各種數據解釋的過程中,主要步驟是對系統因子與機率因子所扮演的相應角色做出判斷。
     有鑑於機率並不好懂──即使是那些受過些許統計訓練的人──我們介紹怪誕的,希望能夠被記住的隱喻,來呈現機率因子的作用(第二章)。