神譯局是36氪旗下編譯團隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風向。
編者按:決策是行動的指南。不管是個人還是企業(yè),每天都要面臨著無數(shù)的決策。決策的好壞會對結(jié)果產(chǎn)生巨大影響,如何做好決策是每個人都要上的一門必修課。在Netflix這里,他們采用了一種以實驗為導(dǎo)向的決策流程,先小范圍地對不同方案進行測試,根據(jù)對比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/N測試做出決策的系列文章。本文來自編譯,是系列文章的第五篇。后續(xù)文章還將介紹實驗在 Netflix 中的作用、Netflix對基礎(chǔ)設(shè)施的投資是如何為實驗提供支撐和擴展的,以及 Netflix內(nèi)部實驗文化的重要性。
圖片來源:Adobe
劃重點:
合適的推理需要完整的報告與透明。
p 值或統(tǒng)計顯著性并不能衡量效果的大小或結(jié)果的重要性。
科學結(jié)論與商業(yè)或政策決策不應(yīng)該光看 p 值是不是超過特定閾值。
Netflix 是如何做決策的?(一):介紹
Netflix是如何做決策的?(二):什么是 A/B 測試?
Netflix是如何做決策的?(三):誤報與統(tǒng)計顯著性
Netflix是如何做決策的?(四):漏報與功效
在第 3 部分(誤報與統(tǒng)計顯著性)與第 4 部分(漏報與功效)里,我們討論了支撐 A/B 測試的核心統(tǒng)計概念:誤報、統(tǒng)計顯著性與 p 值,以及漏報和功效。在本文中,我們將討論困難的部分:在復(fù)雜的業(yè)務(wù)環(huán)境下,怎么運用測試結(jié)果來支撐決策?
關(guān)于 A/B 測試,我們需要面對一個令人不快的現(xiàn)實,那就是任何測試結(jié)果都未必潛在真相的反映。就像我們在之前的文章里面討論的那樣,好的做法包括先要設(shè)置并理解誤報率,然后再設(shè)計出好的實驗,從而有可能檢測出合理且有意義的真實影響。這些統(tǒng)計學上的概念可以幫助減少并理解錯誤率,并在面對不確定性的時候做出正確決定。但特定實驗的結(jié)果是誤報還是漏報我們?nèi)詿o法知道。
圖 1:心存懷疑雖是一種不愉快的體驗,但至少不像深信不疑那般荒唐——伏爾泰。
在用 A/B 測試來改進 Netflix 會員的體驗時,我們發(fā)現(xiàn)有一點至關(guān)重要,那就是不要只關(guān)注數(shù)字(包括 p 值在內(nèi)),還要用有力和合理的判斷來解釋結(jié)果,二者結(jié)合來確定是否存在令人信服的證據(jù),能夠說明新體驗對于會員來說是好的。這些考慮因素跟美國統(tǒng)計協(xié)會在 2016 年的時候發(fā)表的關(guān)于統(tǒng)計顯著性與 P 值的聲明一致,以下三條直接引用(粗體)對我們的實驗很有幫助。
“合適的推理需要完整的報告與透明。” 就像我們在第 3 篇(誤報與統(tǒng)計顯著性)所說那樣:,按照慣例,我們的實驗將誤報率設(shè)為 5%。在實踐上,如果我們進行 20 次實驗(比如評估 20 種顏色的果凍豆是不是都跟粉刺有關(guān))的話,預(yù)計至少會得到一個顯著結(jié)果——即便事實上每個實驗的零假設(shè)均為真,并沒有產(chǎn)生實際效果。這就是多重比較問題了,有很多方法可以控制整體的誤報率,但我們不會在這里介紹。不過,最重要的是不僅要報告和跟蹤產(chǎn)生了顯著結(jié)果的測試結(jié)果,還要報告和跟蹤那些沒有產(chǎn)生顯著結(jié)果的測試結(jié)果。
圖 2:關(guān)于誤報,你需要了解的一切都在這兒了。
“ p 值或統(tǒng)計顯著性并不能衡量效果的大小或結(jié)果的重要性。” 在第 4 篇(漏報與功效)中,我們討論了實驗設(shè)計階段做好設(shè)計的重要性,這樣才能讓A/B 測試有很高概率能檢測出合理的、有意義的指標變化。在解釋結(jié)果的時候也要有相關(guān)考慮。即便結(jié)果具有統(tǒng)計顯著性(p 值 < 0.05),估計的指標變動也可能很小,以至于對 Netflix 會員的體驗無關(guān)緊要,我們最好把精力放在其他領(lǐng)域的創(chuàng)新上。或者,擴展新功能的成本相對于收益而言也許過高,反不如不推出這項功能,而是把資金投資到改善其他領(lǐng)域的產(chǎn)品體驗上,從而更好地為會員服務(wù)。
“科學結(jié)論與商業(yè)或政策決策不應(yīng)該光看 p 值是不是超過特定閾值。” 本文的其余部分將深入介紹我們的決策實踐,重點會介紹我們是怎么通過 A/B 測試全面評估證據(jù)的。
用數(shù)據(jù)為效果說話
在為了支撐決策而評估證據(jù)時,有一種比較實用方法,那就是想象自己是新產(chǎn)品體驗的辯護律師,為它收集理由:看有沒有有足夠的證據(jù)得出結(jié)論說,除了那 5% 的合理懷疑之外,新產(chǎn)品體驗產(chǎn)生了對會員有益的真正效果。為了幫助大號這樁案子,在解釋測試結(jié)果時我們會向自己提出這樣一些的問題:
結(jié)果跟假設(shè)是否一致?如果假設(shè)跟優(yōu)化后端基礎(chǔ)設(shè)施的計算資源有關(guān),結(jié)果顯示用戶滿意度在統(tǒng)計上有了顯著提高的話,我們會持懷疑態(tài)度。結(jié)果有可能是誤報——或者更有可能是實驗執(zhí)行中出現(xiàn)錯誤或bug的結(jié)果(Twyman 定律,任何看起來有趣或與眾不同的數(shù)據(jù)通常都是錯誤的)。有時候結(jié)果雖然令人驚訝但卻是對的,不過更有可能要么是實驗執(zhí)行錯誤的結(jié)果,要么是誤報,這會促使我們深入去挖掘數(shù)據(jù),找出根本原因。
指標的故事是不是連貫一致?在第 2 篇(什么是 A/B 測試?)中,我們介紹了因果機制,說到了通過這種機制,對產(chǎn)品所做的更改會影響到此次測試指定的次要指標與主要決策指標,并且介紹了這種機制的重要性。在評估測試結(jié)果時,重要的是要看這些次要指標的變化情況。一般來說,這些次要指標往往跟特定實驗相關(guān),從而可以評估主要指標的變化是否遵循了假設(shè)的因果鏈。比方說,通過十大榜的實驗,我們想看看把十大榜放進來能不能提高作品級別的參與度,以及會員是不是會在主頁找到的觀看內(nèi)容會比在其他地方找到的多。用戶對十大榜的參與度增加,來自主頁的播放增加,這些會幫助我們增強信心,即十大榜實際上是提高了會員的整體滿意度的。相比之下,如果十大榜治療組主要會員的滿意度指標上升,但對這些次要指標的分析顯示,十大榜所包含的作品的參與度沒有增加的話,我們就會持懷疑態(tài)度。也許十大榜對于會員來說并不是個很好的體驗,它的存在導(dǎo)致更多會員離開主頁,增加了對Netflix 搜索的使用——結(jié)果神奇的是,整體滿意度還是提高了(也許是因為搜索體驗較好)?;蛘哌@也可能是一次誤報。不管是哪種情況,次要指標的變化都會引發(fā)質(zhì)疑,以至于盡管主要決策指標發(fā)生了變化,但我們沒法很自信地得出結(jié)論,認為所做處理激活了假設(shè)的因果機制。
那有沒有有額外的支持或反駁證據(jù),比方說某種體驗的類似派生存在一致的模式?在一項實驗中測試一個想法的多個變種其實很常見。比方說,對于 Top 10 體驗,我們可能會測試多種設(shè)計變體以及多種Top 10 榜中主頁的擺放位置。如果Netflix 會員覺得十大榜體驗很棒的話,我們預(yù)期在這些不同的變體當中,其主要和次要指標都能看到類似的收益。有的設(shè)計可能更好一些,但如果不同變體均產(chǎn)生廣泛一致的結(jié)果的話,就有助于說明十大榜體驗是有用的。反過來,如果我們測試了 20 個設(shè)計和擺放變體,其中只有一個的主要決策指標中發(fā)生重大變化的話,我們會更加懷疑十大榜的有效性。畢竟,在誤報率為5%的情況下,我們預(yù)計平均而言智慧得到一個顯著的隨機結(jié)果。
結(jié)果是否可重復(fù)?到頭來,要想對結(jié)果樹立信心,最可靠的辦法是看看結(jié)果在后續(xù)的測試里面是不是可以重復(fù)。如果一開始的 A/B 測試的結(jié)果具有啟發(fā)性但不是決定性的話,我們一般還會繼續(xù)測試,根據(jù)第一次測試學到的結(jié)果對假設(shè)進行改進。比方說,通過十大榜測試,我們可能會觀察到部分設(shè)計以及放置選擇往往會帶來好的指標變化,其中部分具備了統(tǒng)計的顯著性。然后,我們會改進這些最有希望的設(shè)計和放置方案變體,然后開始新的測試。如果上一次測試的體驗比較少的話,我們還可以擴大規(guī)模,從而提高功效。還有一個策略,在產(chǎn)品變化很大的時候比較有用,那就是把勝出的治療體驗逐步推廣到全部用戶或會員,從而確認在 A/B 測試中看到的好處是真的,并確保沒有產(chǎn)生意外的有害影響。在這種情況下,我們不是一下子向所有用戶推出新體驗,而是慢慢增加獲得新體驗的成員的比例,并觀察與仍然接受舊體驗的會員之間的差異。
與決策理論的關(guān)聯(lián)
在實踐上,每個人都有不同的框架,可以用來解釋測試結(jié)果,做出決定。除了數(shù)據(jù)之外,每個人都會基于之前做過的類似的A/B測試,把自己的先驗信息帶進來,以及他們對決策的潛在收益和后果的評估所制定的損失或效用函數(shù)帶來進。使用決策理論(包括貝葉斯決策理論),有多種方法可以將這些人類這些評估風險和收益的判斷形式化。這些方法涉及到對做出正確或錯誤決策的效用做出正式評估(比方說,測算推出未能改善會員體驗的代碼變更的代價)。如果在實驗結(jié)束時,我們還可以估算出每個處理組犯每一種類型錯誤的概率的話,就可以做出讓會員的預(yù)期效用最大化的決策。
決策理論是吧統(tǒng)計結(jié)果與決策結(jié)合起來,所以是基于 p 值的決策方法的一個很吸引人的替代方法。不過,由于特定效用函數(shù)的細微差別,決策理論方法可能難以廣泛應(yīng)用到實驗當中。雖然不完美,但我們在本系列文章所介紹的頻率論假設(shè)檢驗方法(重點是 p 值與統(tǒng)計顯著性),卻是一個廣泛易用的框架,可以用來解釋測試結(jié)果。
解釋 A/B 測試結(jié)果還有一個挑戰(zhàn),那就是對多個指標(主要決策指標和次要指標)的變動做出合理解釋。關(guān)鍵挑戰(zhàn)之一是指標本身往往不是獨立的(也就是指標通常可能會朝同一方向或相反方向變動)。統(tǒng)計推理和決策理論一些更先進的概念也適用這里,而Netflix也在致力于研究給這個多維度指標的解釋問題帶來更多的定量方法。我們的做法是用貝葉斯推理把有關(guān)歷史指標變動的分析信息納入到分析里面,敬請關(guān)注!
最后,值得注意的是,不同類型的實驗在決策過程中都要不同程度地引入人工判斷。比方說,Netflix 采用了一種 A/B 測試形式來確保將新版軟件安全地部署到生產(chǎn)環(huán)境。在面向所有會員發(fā)布新版本之前,我們會先做一個一個小型的 A/B 測試,讓部分會員接收舊版代碼,部分會員接收新版,確保錯誤或意外后果不會降低會員體驗或基礎(chǔ)設(shè)施的性能。對于這個用例而言,我們的目標是自動化整個部署過程,并運用遺憾最小化以及基于測試的決策等框架。通過自動部署新版,或者標記降低的指標給開發(fā)者,從而節(jié)省了開發(fā)人員的時間。
總結(jié)
本文描述了如何為產(chǎn)品創(chuàng)新尋找支撐理由的辦法,那就是仔細分析實驗數(shù)據(jù),同時也指出了不同類型的測試需要引入不同級別的人工輸入到?jīng)Q策過程之中。
在不確定的情況下做出決策(包括根據(jù) A/B 測試的結(jié)果采取行動)是很困難的,而且我們在本系列文章里面所描述的工具很難得到正確應(yīng)用。但是這些工具(包括 p 值)已經(jīng)受住了時間的考驗,就像美國統(tǒng)計協(xié)會主席在 2021 年關(guān)于統(tǒng)計顯著性與可重復(fù)性的工作組聲明中所強調(diào)的那樣:“p 值與顯著性檢驗的運用,若是得到正確應(yīng)用和解釋的話,是不應(yīng)該放棄的重要工具。. . . [它們] 增加了從數(shù)據(jù)得出結(jié)論的嚴謹性。”
公開分享關(guān)鍵產(chǎn)品的測試結(jié)果,并對此進行辯論,這種概念在 Netflix 的實驗文化里面已經(jīng)根深蒂固,我們會在本系列文章的最后一篇中加以討論。不過在下一篇文章中,我們將討論 Netflix 不同的實驗領(lǐng)域,以及聚焦實驗的不同角色。
譯者:boxi。
- 濕地之美|廣州海珠濕地
- (熱點觀察 漫評)美國對歐洲盟友“下狠手”
- 全球微動態(tài)丨德媒文章:政治極化愈演愈烈,美國民主面臨墮落
- 每日觀察!海河觀津丨百萬候鳥來“息”,它們?yōu)楹纹珢郾贝蟾郏?/a>
- 焦點!一起來拍中國空間站!
- 焦點播報:北京新增本土感染者16例 詳情公布
- 天天快看點丨遼寧匯聚高校校友資源 引青年人才在遼創(chuàng)新創(chuàng)業(yè)
- 每日熱文:夢天成功發(fā)射!天空飄來一個字:6
- 環(huán)球最資訊丨長圖丨“院士天團”做優(yōu)“湖南飯”,該是什么味?
- 常益懷等5市州明早有大霧 出行請注意安全
- 環(huán)球動態(tài):11月全省溫高干旱持續(xù)發(fā)展
- 【全球獨家】10月制造業(yè)PMI為49.2% 建筑業(yè)景氣水平較高
- 環(huán)球今日訊!亞馬遜營業(yè)利潤率下降至2% 國內(nèi)頭部電商或進一步搶占海外市場
- 國家藥監(jiān)局:促進彩色隱形眼鏡生產(chǎn)經(jīng)營企業(yè)規(guī)范化發(fā)展
- 即時焦點:智慧芽升級科創(chuàng)力評估平臺 累計上線12條產(chǎn)業(yè)技術(shù)鏈
- 【世界熱聞】內(nèi)蒙古啟動人力資源誠信服務(wù)示范機構(gòu)評選
- 環(huán)球觀焦點:內(nèi)蒙古:這5項職業(yè)資格考試暫停
- 全球熱門:飛天圓夢|靜待夢天,中國空間站在軌建造收官在即
- 飛天圓夢|“夢天”已就位!楊利偉動情講述“初代”航天人故事
- 對標保時捷Taycan?大眾中國功勛蘇偉銘親自下場造車
- 北京石景山開展冬季供暖前特種設(shè)備安全專項檢查
- 陜西延安:開展兒童化妝品專項檢查 規(guī)范化妝品市
- 北京海淀開展商品條碼專項監(jiān)督檢查 努力打造穩(wěn)定
- 金華推進網(wǎng)絡(luò)直播營銷治理顯成效 培育放心消費直
- 北京延慶對重點行業(yè)開展格式條款專項檢查 做好市
- 北京海淀開展電動自行車整治夜查行動 全力保障轄
- 江蘇昆山全力規(guī)范大閘蟹市場秩序 營造安全放心消
- 福建寧化開展“兩品一械”網(wǎng)絡(luò)銷售專項檢查 保障
- 北京懷柔:開展市場綜合執(zhí)法監(jiān)督檢查 督導(dǎo)各類經(jīng)
- 天津河?xùn)|:多措并舉推進企業(yè)信用修復(fù)工作 助力轄