互聯網人必須要懂的 “幸存者偏差”
不管你是否聽過這個詞,這篇文章都會讓你對 “幸存者偏差” 理解的更加深刻,先讓我們來看幾個段子:
這些都是關于幸存者偏差的段子,大家看完都哈哈大笑,是因為我們都太容易識別它了,然而我列出下面的案例,我們可能未必能得出正確的結論了:
事實上,以上的案例都極有可能得出錯誤的結論:
在我們日常工作的決策中,幸存者偏差是如此普遍,常常在不經意中影響我們的決策與判斷,那么這個概念的本質是神馬?它容易在哪些情況下發生?它的作用機制是怎樣的?我們如何避免它?今天的文章我們就一起來探討一下這個問題: “幸存者偏差” 的歷史“幸存者偏差” 來源于二戰中一個著名的故事: 1941 年,第二次世界大戰中,空軍是最重要的兵種之一,盟軍的戰機在多次空戰中損失嚴重,無數次被納粹炮火擊落,盟軍總部秘密邀請了一些物理學家、數學家以及統計學家組成了一個小組,專門研究 “如何減少空軍被擊落概率” 的問題。 當時軍方的高層統計了所有返回的飛機的中彈情況——發現飛機的機翼部分中彈較為密集,而機身和機尾部分則中彈較為稀疏,于是當時的盟軍高層的建議是:加強機翼部分的防護。 但這一建議被小組中的一位來自哥倫比亞大學的統計學教授——沃德(Abraham Wald)駁回了,沃德教授提出了完全相反的觀點——加強機身和機尾部分的防護。 那么這位統計學家是如何得出這一看似不夠符合常識的結論的呢?沃德教授的基本出發點基于三個事實是:
軍方采用了教授的建議,加強了機尾和機身的防護,并且后來證實該決策是無比正確的,盟軍戰機的擊落率大大降低,這就是 “幸存者偏差” 故事的來源。 “幸存者偏差” 的本質廣義的幸存者偏差用統計學的專業術語來解釋是——“選擇偏倚”,即我們在進行統計的時候忽略了樣本的隨機性和全面性,用局部樣本代替了總體隨機樣本,從而對總體的描述出現偏倚。 統計學的簡單描述是這樣的:統計全集為 A,觀察到 A 的子集 A1 有特征 X,A1 為幸存者,而 A 另外的子集 A2 并沒有觀察到或者被人為忽略,于是判斷全集 A 都有特征 X,事實上 A2 的特征為 Y。 用上述記者調查買火車票的案例來代入解釋為:A 為全體想買火車票的人,A1 為已經在火車上的人,A2 為想買但沒買到的人,特征 X 為買到票,特征 Y 為未買到票,即幸存者偏差將一小部分顯性樣本代替了隨機樣本,從而導致了統計的偏差。 有了這個框架,我們就能從理論的角度理解這些 “幸存者偏差” 的具體案例了:
美國學生會發現亞裔同學在數學方面要超出其同齡孩子很多——“幸存者偏差”:能到美國上學的孩子在中國的教育水平和成長環境通常都會相對優越,要是中國的母語是英文,想必語文成績也會優于美國同齡學生。
假如北京長庚醫院對心臟病人住院病人的飲食習慣進行研究,從而發表一篇《心臟病與飲食習慣之間的關系》的論文,該論文是否有可信度?答案是沒有!因為長庚醫院為北京高端私立醫院,該院病人和普通病人的飲食習慣會存在差異,同時住院的病人也并非能代表所有病例(不住院就已經去世的、住不起院的等等),事實上,排除這些干擾因素是現代醫學研究的基本準則。
我每周一三五中午都會去公司的健身房,這個習慣堅持了很長一段時間,然而有一段時間我一度沮喪——因為我發現公司健身房的同事基本上身材都比我好,這其實就是典型的 “幸存者偏差”——那些健身房的人身材好當然是大概率事件,身材不好也不鍛煉的人通常很少去健身房。
2010 年世界杯最大的明星不是來自某個球員,而是來自德國奧博豪森海洋館的章魚” 保羅 “,它神奇地連續 7 次百發百中地預測了世界杯德國隊的比賽結果,章魚保羅成為那個夏天世界媒體熱情追逐的對象,然而事實上它就是一次典型的” 幸存者偏差 “,那年夏天其實有很多動物都參與了世界杯的預測:菲律賓的猴子、墨西哥的羊駝、非洲的大象、保加利亞的奶牛甚至還有中國的熊貓,只是因為這些動物預測失敗了于是并沒有媒體報道,而章魚保羅成為那個幸運兒。 在以上四個案例中,全集 A 分別為:中國的所有孩子、所有心臟病患者、我公司的所有同事、預測世界杯的所有動物; 幸存者 A1 分別為:有條件去美國念書的孩子、在長庚醫院的心臟患者、去健身房的同事、章魚保羅; 特征 X 分別為:數學好、飲食獨特、身材好、預測準; 特征 Y 分別為:數學平庸、飲食正常、身材一般、預測不準。 這就是 “幸存者偏差” 的分析框架。 警惕 “幸存者偏差” 的濫用很多人對 “幸存者偏差” 這個名詞一知半解的時候,往往會造成它的濫用,在作者看來,警惕 “幸存者偏差” 和警惕 “幸存者偏差” 的濫用同樣重要。 很多人看到一些媒體報道的創業 “成功故事” 立馬嗤之以鼻——“這是幸存者偏差,不知道有多少個失敗的案例呢?”,然后對成功者的方法和經驗一概摒棄; 很多行賄的工作人員看到 “某人行賄被抓” 的新聞見怪不怪,認為這是幸存者偏差——“媒體只會報道那些行賄被抓的人,其實還有更多沒抓住呢!” 于是他們繼續行賄。 那么 “幸存者偏差” 這個概念是如何被濫用的呢?還是舉記者調查高鐵買票的例子,明白 “幸存者偏差” 理論,只能讓我們明白——”記者在高鐵上進行調查來判斷所有人都買到票” 這種方法是不科學的。 注意——它并不能直接推斷出 “所有人都買到票” 這個結論一定是錯的,因為剩下的人有沒有買到票這一信息——我們不知道:春運的時候我們能根據常識判斷他們可能買不到票,但平時的高鐵,基本上是想買到票的人都能買到票,因此,直接判斷 “肯定有人沒買到票” 就屬于 “幸存者偏差” 的濫用,錯誤的反面不一定就是正確。 從統計學的角度我們來看我們是如何濫用幸存者偏差的——我們觀察到了 A1 有特征 X,同時我們意識到可能存在幸存者偏差,我們預先把 A1 定義為幸存者,于是直接判斷非幸存者 A2 一定不會有特征 X,而真相是:A2 是否有特征 X 這個信息我們并不知道,可能有,也可能沒有。 警惕 “幸存者偏差” 濫用非常重要,事實上前面提到的二戰統計學教授沃德的故事也只是后人及其簡化之后的版本,稍微思考一下就會知道,一個受過科學訓練的統計學教授是不可能只憑直觀判斷就直接給出結論的。 事實上沃德教授關于飛機擊落問題先后提交了八份不同方面的報告,其中主論文為《A Method of Estimating Plane Vulnerability Based on Damage of Survivors》,即《一種根據幸存飛機損傷情況推測飛機要害部位的方法》。 這篇論文就有 80 多頁,僅后人對他貢獻的綜述就有 10 多頁,(公眾號回復關鍵詞——“沃德教授” 獲取論文),這位寫過巨著《序列分析》的權威教授顯然是對框架中 A2 的特征做過詳細而嚴謹的分析才得出結論滴! 如果拍拍腦袋就能成為統計學家,那大家都是統計學家! 互聯網人如何避免 “幸存者偏差”?“幸存者偏差” 是數據分析的常見邏輯錯誤,而數據又是驅動互聯網的動力之一,那么互聯網人應該在分析數據、決策判斷時如何避免 “幸存者偏差” 的存在呢?衛夕總結了三個步驟:
我們來看幾個案例直接進行訓練:
“衛夕聊廣告” 既開通了公眾號也開通了微博賬號 “衛夕君”,這時候我發現同一篇文章在相同的閱讀的情況下微信的打賞特別少,而微博則多一些,因此我起初大致判斷微信粉絲的打賞意愿低于微博,直到我想起來微信的 iOS 用戶由于蘋果的政策限制目前并不能打賞之后才明白我之前的猜想是錯滴,這存在幸存者偏差,于是我嘗試在最近的兩篇文章末尾專門加上 IOS 贊賞碼,文章的贊賞金額果然提升了接近 4 倍。 在這個案例中避免幸存者偏差的標準三步為: 判斷樣本的隨機性,即看微信公眾號的打賞用戶是否能代表整體?答案是否定的,因為只覆蓋了安卓用戶; 判斷樣本和剩余樣本會不會存在顯著差異?即安卓用戶和 iOS 在打賞這件事上會不會存在差異?答案是:可能存在差異; 分析剩余樣本數據,驗證結論,即加上 iOS 的打賞碼再次驗證結果。
某視頻網站在 VIP 中新上線了一部美劇,該美劇每一集的觀看人數之前一直穩定,但當它播到第七集的時候,觀看人數有一個相對明顯的流失,運營人員開始分析認為是該部美劇從第七集開始劇情急轉直下主角忽然掛掉引起的,然而當他們仔細分析流失用戶的時候,發現流失的都是因為三個月前某次大規模贈送的免費會員到期引起的,只是時間正好和第七集重合而已,普通會員根本沒有流失。 在這個案例中三步分別為:1. 判斷樣本隨機性,即分析流失用戶是不是所有會員的隨機樣本。答案是否定的——流失的都是免費會員。2. 判斷樣本和剩余樣本會不會存在顯著差異?即正常會員和免費會員有沒有差異?當然有。3. 分析剩余樣本數據,驗證結論,即看正常會員是否流失。
2016 年 9 月年 Facebook 關于視頻廣告數據偏差的問題變成了該公司廣告歷史上不大不小的負面新聞,Facebook 在其官方博客中承認:其提交給廣告主的數據報告中,視頻廣告平均播放時長的數字只統計了那些播放時長超過 3 秒的播放行為,也就是說,如果視頻播放沒超過 3 秒,Facebook 居然就把它舍去了,很顯然,廣告主的平均播放時長被拉長了,因為播放時間短的壓根不統計,而這一偏差居然存在了長達兩年之久。 這個案例中,分析依然分為三步:1. 判斷樣本隨機性——廢話!3 秒以下的都舍去了!當然沒有隨機性!2. 判斷樣本和剩余樣本是否存在顯著差異?廢話,3 秒以下和 3 秒以上肯定有差異!3. 分析剩余樣本數據、驗證結論。這….. 就不用驗證了吧! 以上的分析前提是我們需要對我們的業務進行深刻的理解,只有你深刻理解了你業務中具體重要的影響因素你才能做出正確的猜想和判斷。 好了:以上就從理論到實踐的角度介紹了幸存者偏差,這時候有人會問衛夕,你覺得中文互聯網上哪一個平臺的內容出現幸存者偏差的概率會比較大?哈哈哈,毫無疑問是知乎!我們來感受一下: 本文轉自公眾號“衛夕聊廣告”(ID:weixiads)。 該文章在 2018/6/11 10:42:45 編輯過 |
關鍵字查詢
相關文章
正在查詢... |