2017年10月28日 星期六

ithome 資料科學家揭發大數據的黑暗面 百家樂 http://www.iwin9418.com

故事始於1983年。在這一年,處境艱難的新聞雜誌《美國新聞與世界報導》(U.S. News & World Report)決定展開一項雄心勃勃的計畫:它將評估美國1,800家學院和大學,替它們排出優劣次序。如果這項計畫成功了,由此產生的大學排名將成為有用的工具,有助數以百萬計的年輕人做他們人生中的首個重大決定。對許多年輕人來說,上什麼大學決定了他們未來的職業路向,也決定了他們將結交哪些終身的朋友(很可能包括他們的配偶)。這家雜誌社也希望大學排名那一期可以創造銷售奇跡,使《美國新聞》至少有一週可以追上主要對手如《時代》和《新聞週刊》。

軍備競賽:大學入學問題

《美國新聞》的人員要衡量的是「教育卓越程度」,這比玉米的成本或一粒玉米有多少微克的蛋白質模糊得多。他們沒有直接的方法可以量化四年的大學教育對一名學生的影響,遑論對數千萬名學生的影響。

他們無法測量學生四年大學生活的各方面,例如學到多少東西、有多快樂、對個人信心有何影響,以及在友誼上有多大的收獲。他們的模型並不反映詹森總統的高等教育理想──「加深個人成就、提升個人生產力和增加個人報酬的一種方式。」

他們因此仰賴一些看似與教育成就有關的替代指標,例如學生的SAT分數、師生比率,以及錄取率。他們分析新生升至二年級的百分比,也分析畢業率。他們計算在生的校友捐錢給母校的百分比,假定校友願意捐錢,代表他們很可能滿意自己所接受的教育之品質。大學排名有四分之三由一個演算法根據這些替代指標計算出來;這個演算法代表一種判斷,以電腦程式的形式存在。排名的另外四分之一,是以全美各大學管理層的主觀看法為根據。

《美國新聞》第一份仰賴數據的大學排名1988年公佈,結果看來合情合理。但是,隨著這種排名變成一種國家標準,它產生了惡劣的回饋環路。問題在於排名會自我強化。一家大學在《美國新聞》的排名上表現不濟,聲譽會受損,各種情況會惡化。頂尖學生和頂尖教授都會避開它,校友會很不滿意,減少捐款。結果排名將進一步下跌。簡而言之,這種排名決定了大學的命運。

大學管理層以前可以利用各種方式評估自身的表現,而這往往仰賴個別證據。例如某些教授可能得到學生的熱烈好評,有些學生畢業之後成為傑出的外交人員或企業家,有些成為得獎的小說家。這一切都可以帶來好口碑,對學校的聲譽有幫助。但麥卡萊斯特學院(Macalester College)好過里德學院(Reed College)嗎?愛荷華大學好過伊利諾大學嗎?這很難說。大學有如不同類型的音樂,或不同的飲食方式,本應容得下不同的見解,而且各方都可以提出很好的理由。但是,有了「全美標準」的大學排名之後,原本容得下許多不同見解的大學評價系統,如今變成獨尊一組數字。

如果你從大學校長的角度看這種發展,事情其實相當悲哀。這些人多數珍視自身的大學經歷──這是他們在學術界努力向上爬的原因之一。但是,如今他們在自身事業的高峰,卻必須耗費大量的精力,根據一家二流新聞雜誌一群新聞工作人員界定的15個方面的標準,努力改善大學的表現。他們幾乎就像變回了學生,必須努力爭取嚴師給一個好分數。他們其實被一個僵化的模型、一種數學毀滅性武器困住了

如果《美國新聞》的大學排名不怎麼成功,那是沒問題的。問題是它非常成功,很快便建立了形同國家標準的地位。它一直緊緊綁住美國的教育體系,替大學管理層和學生訂出了一份嚴格的待辦事項清單。《美國新聞》大學排名的應用規模很大,製造出一種幾乎無止境的有害回饋環路。雖然不像許多其他模型那麼不透明,它仍是貨真價實的數學毀滅性武器。

有些大學的管理人員為了推高學校的排名,不惜不擇手段。貝勒大學(Baylor University)出錢讓它所收的新生重考SAT,希望可以藉此提高學生的SAT分數,進而推高貝勒大學的排名。精英小型大學,包括賓州的巴克內爾大學(Bucknell University)和加州的克萊蒙特麥肯納學院(Claremont McKenna College),都曾提供假數據給《美國新聞》,誇大了它們的新生SAT分數。紐約的愛納學院(Iona College)2011年承認,其員工捏造了幾乎每一方面的數據,包括SAT分數、錄取率、畢業率、新生續讀率、師生比率,以及校友捐款數據。這種伎倆是有用的,至少是暫時有效。《美國新聞》估計,拜假數據所賜,愛納學院在美國東北區域型大學中的排名從第50位升至第30位。

絕大多數大學管理人員會尋求一些比較正派的方法提高學校的排名。他們不會作弊,而是會努力改善影響排名的每一個指標。他們可以說,這是最有效的資源運用方式。畢竟如果他們致力滿足《美國新聞》的演算法,他們將能籌得更多資金,吸引到更好的學生和教授,不斷提升自身的排名。但他們真的還有其他選擇嗎?

《美國新聞》的模型衍生的回饋環路和造成的焦慮,造就了高中生升學輔導產業。這種服務往往收費高昂。一家名為「頂級招生」(Top Tier Admissions)的公司提供的「入學申請訓練營」為期四天,收費1.6萬美元(食宿費用另計)。在這種訓練營中,將升高中最後一年的學生練習寫入學申請文章,學習如何在面試中「得分」,以及編寫「活動記錄」,概括個人得過的所有獎項、擅長的運動,以及曾參與的社團活動和社區服務,力求藉此打動大學的招生主管。

每一家大學的招生模型至少有一部分是源自《美國新聞》的模型,它們都是一種小型的數學毀滅性武器。這些模型導致學生和家長投入瘋狂的競爭,花費離譜的巨額金錢。而且這些模型是不透明的。它們把多數參與者(或受害者)蒙在鼓裡,同時替像馬振翼這樣的顧問創造出大生意;這些顧問藉由他們在各大學建立的人脈,或是靠「逆向工程」推測出大學的招生演算法,了解這些大學不公開的招生模型。

受害者當然是絕大多數美國人,也就是負擔不起昂貴的升學課程和輔導服務的中下階層家庭。他們無法得知寶貴的內幕資訊。結果是美國的教育制度偏袒優勢階層,不利於貧窮人家的子弟,導致他們多數未能接受良好的教育,更加難以脫貧。這種制度加深了社會分化。

但其實連那些擠進頂尖學府的學生也是輸家。如果你認真思考,會發現這種大學招生遊戲雖然能替某些人賺到很多錢,但幾乎毫無教育價值。這種複雜和緊張的過程不過是以某種新方式,將同一群18歲的孩子重新分類和排序。他們不會因為多通過幾個關卡,或是在專業導師的指導下,費盡心思寫一些迎合目標學校的文章,便掌握到重要的技能。無法負擔昂貴指導服務的人,則在網路上四處尋找比較廉價的替代品。從富有家庭到勞工階層,所有人都被訓練來滿足一副巨型機器(一種數學毀滅性武器)的要求。而經歷了這種折騰之後,許多人將背負重債,可能需要數十年才能還清。他們是一場特別可惡的軍備競賽的人質。(摘錄整理自第三章) 

 書名  

大數據的傲慢與偏見:一個「圈內數學家」對演算法霸權的警告與揭發

凱西.歐尼爾(Cathy O'Neil)/著;許瑞宋/譯

大寫出版

售價:320元

 作者簡介 

凱西.歐尼爾(Cathy O'Neil)

數據科學家,部落格mathbabe.org網主。自哈佛大學取得數學哲學博士學位,曾任教於巴納德學院,隨後投身金融業,任職於對沖基金公司德劭(D.E. Shaw)。離開金融業後曾於多家新創企業擔任數據科學家,負責建立預測人們購買和點擊行為的模型。



from iThome 新聞 http://ift.tt/2lr6Cf1




沒有留言:

張貼留言