首頁(yè)>資訊 >
Netflix是如何做決策的?(六):實(shí)驗(yàn)是主要關(guān)注焦點(diǎn) 2022-01-30 16:41:08  來(lái)源:36氪

神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。

編者按:決策是行動(dòng)的指南。不管是個(gè)人還是企業(yè),每天都要面臨著無(wú)數(shù)的決策。決策的好壞會(huì)對(duì)結(jié)果產(chǎn)生巨大影響,如何做好決策是每個(gè)人都要上的一門必修課。在Netflix這里,他們采用了一種以實(shí)驗(yàn)為導(dǎo)向的決策流程,先小范圍地對(duì)不同方案進(jìn)行測(cè)試,根據(jù)對(duì)比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/B測(cè)試做出決策的系列文章。本文來(lái)自編譯,是系列文章的第六篇。后續(xù)文章還將介紹Netflix對(duì)基礎(chǔ)設(shè)施的投資是如何為實(shí)驗(yàn)提供支撐和擴(kuò)展,以及 Netflix內(nèi)部實(shí)驗(yàn)文化的重要性。

Netflix 是如何做決策的?(一):介紹

Netflix是如何做決策的?(二):什么是 A/B 測(cè)試?

Netflix是如何做決策的?(三):誤報(bào)與統(tǒng)計(jì)顯著性

Netflix是如何做決策的?(四):漏報(bào)與功效

Netflix是如何做決策的?(五):樹立對(duì)決策的信心

實(shí)驗(yàn)和因果推理是 Netflix 數(shù)據(jù)科學(xué)與工程組織關(guān)注的主要焦點(diǎn)領(lǐng)域之一。為了給全公司的重大決策提供直接支持,Netflix 有許多的數(shù)據(jù)科學(xué)團(tuán)隊(duì)會(huì)直接跟產(chǎn)品經(jīng)理、工程團(tuán)隊(duì)以及其他業(yè)務(wù)部門合作,去設(shè)計(jì)實(shí)驗(yàn)、進(jìn)行實(shí)驗(yàn)并從實(shí)驗(yàn)中學(xué)習(xí)。為了實(shí)現(xiàn)規(guī)?;覀円呀?jīng)建立了一個(gè)內(nèi)部實(shí)驗(yàn)平臺(tái)(簡(jiǎn)稱 XP),而且還會(huì)繼續(xù)投資。我們有意識(shí)地鼓勵(lì)中心化的實(shí)驗(yàn)平臺(tái)跟那些數(shù)據(jù)科學(xué)團(tuán)隊(duì)之間的協(xié)作,后者也將跟Netflix的業(yè)務(wù)部門直接開展合作。

Netflix的數(shù)據(jù)科學(xué)家直接跟公司的業(yè)務(wù)部門合作,進(jìn)行實(shí)驗(yàn)與因果推理,他們對(duì)自己所工作的業(yè)務(wù)領(lǐng)域有著深入的領(lǐng)域理解與直覺。擔(dān)任這些角色的數(shù)據(jù)科學(xué)家運(yùn)用科學(xué)方法改善Netflix當(dāng)前以及未來(lái)會(huì)員的體驗(yàn),并參與實(shí)驗(yàn)的整個(gè)生命周期:包括數(shù)據(jù)探索與構(gòu)思;設(shè)計(jì)并執(zhí)行測(cè)試;分析測(cè)試結(jié)果,為決策提供支撐;綜合來(lái)自眾多測(cè)試(與其他來(lái)源)的知識(shí),從而了解會(huì)員的行為,并確定創(chuàng)新的機(jī)會(huì)領(lǐng)域。這是一個(gè)科學(xué)嚴(yán)謹(jǐn)?shù)牧夹匝h(huán),測(cè)試基于一般原則(演繹)做出的,有關(guān)會(huì)員行為與偏好的特定假設(shè),并概括從實(shí)驗(yàn)中學(xué)到的東西,從而建立起我們對(duì)會(huì)員的概念理解(歸納)。這個(gè)循環(huán)讓我們建議對(duì) Netflix 服務(wù)的各個(gè)方面進(jìn)行快速創(chuàng)新,對(duì)我們正在為會(huì)員帶來(lái)更多快樂樹立起信心,因?yàn)槲覀兊臎Q定是有經(jīng)驗(yàn)證據(jù)的支持的。

這些角色的成功需要具備淵博的技術(shù)技能、主動(dòng)的態(tài)度,以及對(duì)本領(lǐng)域空間具有強(qiáng)烈的好奇心。 Netflix 的數(shù)據(jù)科學(xué)家不懈地向數(shù)據(jù)追求知識(shí),并不斷探索更遠(yuǎn)的距離,總是提出下一個(gè)問題。 “我們還能從這次測(cè)試中學(xué)到什么,好用于下一次測(cè)試?” “去年的測(cè)試我能夠綜合出哪些信息,好了解明年的學(xué)習(xí)路線圖的機(jī)會(huì)有多大?” “這個(gè)問題還可以得出哪些數(shù)據(jù)和直覺?” “根據(jù)我在 Netflix 的經(jīng)驗(yàn),在哪些地方還有機(jī)會(huì)可以測(cè)試和改進(jìn)當(dāng)前的體驗(yàn)?”我們期待我們的數(shù)據(jù)科學(xué)家能夠突破實(shí)驗(yàn)設(shè)計(jì)與分析的界限:根據(jù)產(chǎn)品特定部分的學(xué)習(xí)議程,還有哪些新方案或方法可以產(chǎn)生有價(jià)值的洞察?業(yè)務(wù)合作伙伴也將這些數(shù)據(jù)科學(xué)家視為值得信賴的思想伙伴,因?yàn)樗麄冊(cè)跁?huì)員與 Netflix 體驗(yàn)方面已經(jīng)積累了深厚的領(lǐng)域?qū)I(yè)知識(shí)。

以下就是 Netflix 對(duì)部分實(shí)驗(yàn)領(lǐng)域,以及每個(gè)領(lǐng)域的部分創(chuàng)新工作的簡(jiǎn)要總結(jié)。所列內(nèi)容并未詳盡,我們關(guān)注的焦點(diǎn)是那些機(jī)會(huì)不太明顯的領(lǐng)域。這里所說(shuō)的機(jī)會(huì)是指通過(guò)實(shí)驗(yàn)去學(xué)習(xí)和提供更好的會(huì)員體驗(yàn)的機(jī)會(huì)。

Netflix 全公司都在利用 A/B 測(cè)試來(lái)為當(dāng)前與未來(lái)的會(huì)員帶來(lái)更多樂趣。

增長(zhǎng)廣告

Netflix的目標(biāo)是為全世界提供娛樂!我們的增長(zhǎng)團(tuán)隊(duì)在社交媒體平臺(tái)以及其他網(wǎng)站上做廣告,分享有關(guān)即將上映的影片以及新產(chǎn)品功能的新聞,最終的目標(biāo)是增加全球 Netflix 會(huì)員的數(shù)量。對(duì)于開發(fā)利用因果推理來(lái)決定廣告預(yù)算運(yùn)用方式的自動(dòng)化系統(tǒng)來(lái)說(shuō),數(shù)據(jù)科學(xué)家發(fā)揮著至關(guān)重要的作用。

在廣告方面,實(shí)驗(yàn)對(duì)象(我們購(gòu)買的廣告)是 Netflix 的直接貨幣成本。因此,我們對(duì)于決策是有風(fēng)險(xiǎn)厭惡的,會(huì)積極降低購(gòu)買無(wú)法有效吸引新會(huì)員的廣告的可能性。在我們這個(gè)領(lǐng)域要規(guī)避這種風(fēng)險(xiǎn)很有挑戰(zhàn)性,因?yàn)閷?shí)驗(yàn)往往功效很低(參見第 4 部分)。比方說(shuō),我們要靠雙差法來(lái)進(jìn)行比較,對(duì)每一個(gè)廣告實(shí)驗(yàn)的潛在不同受眾體驗(yàn)進(jìn)行公正的比較,而這些方法可以有效地減少樣本量(非常感興趣的讀者可以了解更多細(xì)節(jié)https://www.msi.org/wp-content/uploads/2020/06/MSI_Report_15-122.pdf)。解決這些功效降低有一個(gè)辦法,就是拉長(zhǎng)實(shí)驗(yàn)的時(shí)間——但這會(huì)延緩整個(gè)創(chuàng)新的步伐。

在本文中,我們將聚焦該領(lǐng)域的兩個(gè)相關(guān)的實(shí)驗(yàn)問題,并簡(jiǎn)要描述我們是怎么在保持高節(jié)奏實(shí)驗(yàn)的同時(shí)解決這些問題的。

回顧一下,我們?cè)诘?3 部分和第 4 部分描述了兩種類型的錯(cuò)誤:誤報(bào)(或 第一類錯(cuò)誤)以及漏報(bào)(第二類錯(cuò)誤)。尤其是在實(shí)驗(yàn)功效較低的情況下,其他兩種錯(cuò)誤類型很可能會(huì)發(fā)生,因此,在對(duì)具有統(tǒng)計(jì)顯著性的測(cè)試結(jié)果采取行動(dòng)時(shí)要考慮這一點(diǎn):

當(dāng)我們觀察到具有統(tǒng)計(jì)顯著性的結(jié)果,而估計(jì)的指標(biāo)變化顯示出跟事實(shí)相反的信號(hào)時(shí),就發(fā)生了S類錯(cuò)誤(Type-S error)。

當(dāng)我們觀察到具有統(tǒng)計(jì)顯著性的結(jié)果,而估計(jì)的指標(biāo)變化大小相對(duì)于事實(shí)被放大(或夸大)時(shí),就會(huì)發(fā)生 M 類錯(cuò)誤(Type-M error)。

如果測(cè)試結(jié)果具有統(tǒng)計(jì)顯著性(具有陽(yáng)性的指標(biāo)變化)我們就宣布為贏家,那 S型錯(cuò)誤就會(huì)意味著我們其實(shí)選擇了錯(cuò)誤的實(shí)驗(yàn)推廣用于生產(chǎn),這樣一來(lái),我們未來(lái)所有的廣告支出都會(huì)產(chǎn)生次優(yōu)結(jié)果。 M 型錯(cuò)誤意味著我們高估了實(shí)驗(yàn)的影響。短期而言,M 型錯(cuò)誤意味著我們會(huì)夸大結(jié)果,從長(zhǎng)遠(yuǎn)來(lái)看,可能會(huì)導(dǎo)致高估了優(yōu)化的預(yù)算水平,甚至把未來(lái)的研究方向的優(yōu)先事項(xiàng)都給搞錯(cuò)了。

為了減少這些錯(cuò)誤的影響,我們采用了貝葉斯方法對(duì)增長(zhǎng)廣告進(jìn)行實(shí)驗(yàn)。我們?cè)谶@方面進(jìn)行了很多的測(cè)試,并利用了過(guò)去測(cè)試的指標(biāo)變化分布作為分析的額外輸入。直觀上(以及數(shù)學(xué)上),這種方法會(huì)讓估計(jì)的指標(biāo)變化幅度更小,置信區(qū)間更窄(參見第 3 部分)。綜合來(lái)看,這兩種效應(yīng)降低了S型錯(cuò)誤與M型錯(cuò)誤的風(fēng)險(xiǎn)。

由于及早結(jié)束次優(yōu)實(shí)驗(yàn)的好處可能會(huì)非常巨大,我們還希望能夠做出在統(tǒng)計(jì)上有效的明智決定,好盡快結(jié)束實(shí)驗(yàn)。這是我們數(shù)據(jù)科學(xué)團(tuán)隊(duì)一個(gè)非?;钴S的研究領(lǐng)域,作為最優(yōu)停止的方法,我們已經(jīng)調(diào)查了成組續(xù)貫試驗(yàn)(Group Sequential Testing)以及貝葉斯推理(Bayesian Inference)(有關(guān)這兩種方法的更多信息,請(qǐng)參見下文)。后者跟類似預(yù)期損失(或風(fēng)險(xiǎn))最小化等決策理論概念相結(jié)合使用時(shí),可用來(lái)對(duì)不同決策(包括提前結(jié)束實(shí)驗(yàn)的決定)的影響做出正式評(píng)估。

支付

支付團(tuán)隊(duì)認(rèn)為,不管未來(lái)或當(dāng)前會(huì)員采用哪種支付方式(信用卡、直接借記卡、移動(dòng)運(yùn)營(yíng)商計(jì)費(fèi)等),都絕不應(yīng)成為注冊(cè) Netflix 的障礙或會(huì)員離開 Netflix 的原因。我們的會(huì)員與支付團(tuán)隊(duì)之間有許多接觸點(diǎn):我們?cè)?Netflix 與新會(huì)員之間建立起關(guān)系,通過(guò)續(xù)訂來(lái)維持這些關(guān)系,而(可悲的是!)當(dāng)會(huì)員選擇取消時(shí),這些關(guān)系就會(huì)結(jié)束。

我們對(duì) Netflix 產(chǎn)品的支付方式、身份驗(yàn)證體驗(yàn)、文案、 UI 設(shè)計(jì),以及任何其他我們可以為會(huì)員提供順暢支付體驗(yàn)的地方進(jìn)行創(chuàng)新。在所有這些領(lǐng)域,我們都力求在本系列文章中列出的測(cè)試原則的指導(dǎo)下,提高決策的質(zhì)量和速度。

決策質(zhì)量肯定不想這么簡(jiǎn)單,當(dāng) p 值(參見第 3 部分)降至 0.05 以下時(shí),告訴大家“發(fā)布出去!”即可。首先要有一個(gè)好的假設(shè)以及一個(gè)清晰的決策框架——尤其是要在長(zhǎng)期目標(biāo)以及在務(wù)實(shí)的時(shí)間框架內(nèi)弄清楚之間做出明智的平衡。我們的流量或時(shí)間都是有限的,所以有時(shí)候我們不得不做出艱難選擇。有沒有可以更快產(chǎn)生信號(hào)的指標(biāo)?使用這些指標(biāo)的權(quán)衡取舍是什么?調(diào)用該測(cè)試的預(yù)期損失跟跑其他測(cè)試的機(jī)會(huì)成本相比如何?這些都是有趣的問題,我們一直在尋求改進(jìn)。

我們還積極投資,致力于提高決策速度,通常會(huì)跟實(shí)驗(yàn)平臺(tái)團(tuán)隊(duì)密切合作。在過(guò)去一年的時(shí)間里,我們?yōu)榧涌鞂?shí)驗(yàn)的三種方法試驗(yàn)了各種模型與工作流程:包括成組續(xù)貫試驗(yàn)(GST)、高斯貝葉斯推理(Gaussian Bayesian Inference)以及自適應(yīng)測(cè)試(Adaptive Testing)。這些技術(shù)均可可以自行提高我們的實(shí)驗(yàn)吞吐量;綜合運(yùn)用這些方法有望改變 Netflix 支付實(shí)驗(yàn)的速度軌跡。

伙伴關(guān)系

我們希望所有會(huì)員無(wú)論何時(shí)何地訪問 Netflix,都能享受到高品質(zhì)的體驗(yàn)。我們的合作伙伴團(tuán)隊(duì)致力于確保將 Netflix App 以及我們的最新技術(shù)集成到各種消費(fèi)產(chǎn)品當(dāng)中,并且確保 Netflix在所有這些設(shè)備上很容易就能被發(fā)現(xiàn)和使用。我們還與移動(dòng)與付費(fèi)電視運(yùn)營(yíng)商合作,建立捆綁套餐產(chǎn)品,將 Netflix 的價(jià)值帶給更多的未來(lái)會(huì)員。

在合作伙伴領(lǐng)域,我們想要了解的眾多體驗(yàn),比方說(shuō)合作伙伴推動(dòng)的營(yíng)銷活動(dòng),均不適用于作為本系列關(guān)注的 A/B 測(cè)試框架。有時(shí)候,用戶會(huì)自行選擇體驗(yàn),或者一次性把新體驗(yàn)推出給一大群用戶。這種隨機(jī)性的缺乏妨礙了根據(jù) A/B 測(cè)試得出直接因果結(jié)論。在這些情況下,我們采用了準(zhǔn)實(shí)驗(yàn)以及觀察因果推理技術(shù),用來(lái)推斷我們正在研究的體驗(yàn)的因果影響。數(shù)據(jù)科學(xué)家在這些分析中扮演了一個(gè)關(guān)鍵角色,那就是讓利益相關(guān)者了解這些研究相關(guān)的警告提醒,同時(shí)仍能提供嚴(yán)格的評(píng)估以及可行動(dòng)的洞察,并為一些原本模棱兩可的問題提供清晰的結(jié)構(gòu)。以下是這些分析存在的一些挑戰(zhàn)與機(jī)遇:

混淆了實(shí)驗(yàn)選擇。 用戶自行選擇實(shí)驗(yàn)(treatment)體驗(yàn)或?qū)φ眨╟ontrol)體驗(yàn)時(shí)(相對(duì)于第 2 部分里面討論的隨機(jī)分配),最終進(jìn)入哪種體驗(yàn)的概率可能要取決于他們的Netflix使用習(xí)慣。這些基線指標(biāo)也跟結(jié)果指標(biāo)(比方說(shuō)會(huì)員滿意度)天然相關(guān),所以會(huì)給觀察到的實(shí)驗(yàn)對(duì)結(jié)果指標(biāo)的影響造成混淆。當(dāng)治療選擇或治療吸收會(huì)隨時(shí)間而變化時(shí),問題會(huì)變得更加嚴(yán)重,這可能會(huì)導(dǎo)致混淆情況會(huì)隨時(shí)間而變化。為了應(yīng)對(duì)這些情況,我們采用了逆傾向得分(inverse propensity scores)、雙穩(wěn)健估計(jì)(doubly robust estimators)、雙差法,或者工具變量等方法來(lái)析取可行動(dòng)的因果洞察,并通過(guò)縱向分析來(lái)解釋時(shí)間依賴性。

綜合控制與結(jié)構(gòu)模型。針對(duì)混淆進(jìn)行調(diào)整需要讓預(yù)處理協(xié)變量與、跟響應(yīng)變量處在同樣的綜合水平上。但是,有時(shí)候我們沒法訪問Netflix 會(huì)員個(gè)人級(jí)別的信息。在這種情況下,我們采用綜合控制與結(jié)構(gòu)模型來(lái)分析總體層面的數(shù)據(jù)。

敏感性分析。在缺乏真正的 A/B 測(cè)試的情況下,我們的分析依賴于利用可用數(shù)據(jù)來(lái)調(diào)整治療與結(jié)果指標(biāo)之間的虛假相關(guān)性。但這件事情的好壞取決于可用數(shù)據(jù)是否足以解釋所有這些相關(guān)性。為了了解所做出的因果聲明的有效性,我們會(huì)進(jìn)行敏感性分析,從而評(píng)估發(fā)現(xiàn)的穩(wěn)健性。

信息收發(fā)

在 Netflix,我們一直在尋找方法來(lái)幫助我們的會(huì)員選擇適合自己的內(nèi)容。我們通過(guò)Netflix 產(chǎn)品為每一位會(huì)員提供個(gè)性化體驗(yàn)來(lái)做到這一點(diǎn)。但是,我們可以通過(guò)其他方式幫助會(huì)員了解新的或相關(guān)的內(nèi)容,這樣等他們?cè)诼L(zhǎng)的一天結(jié)束后想放松一下時(shí),就會(huì)想到有些很棒的東西可以看呢?

消息傳遞,包括電子郵件與推送通知,是我們讓會(huì)員保持知情的關(guān)鍵方式之一。 在會(huì)員主動(dòng)觀看內(nèi)容以外的時(shí)間里,Netflix 的消息傳遞團(tuán)隊(duì)還努力為他們帶來(lái)快樂。 Netflix 有了或者即將推出什么新功能?有哪些完美內(nèi)容可以告訴我們的會(huì)員,好讓 “預(yù)約好電影之夜的時(shí)間”,在路上看?作為一支消息傳遞團(tuán)隊(duì),我們也注意到會(huì)員生活當(dāng)中遇到的各種數(shù)字干擾,所以我們一直在努力著,希望做到在合適的時(shí)間向合適的會(huì)員發(fā)送合適的信息。

這一領(lǐng)域的數(shù)據(jù)科學(xué)家與產(chǎn)品經(jīng)理和工程師密切合作,開發(fā)消息傳遞的解決方案,最大限度地提高我們會(huì)員的長(zhǎng)期滿意度。比方說(shuō),我們一直致力于為我們的會(huì)員提供更好、更個(gè)性化的消息傳遞體驗(yàn)。每一天,我們都會(huì)根據(jù)歷史數(shù)據(jù),以及告訴會(huì)員會(huì)收到什么消息(如果有的話)的輸出,預(yù)測(cè)每一條候選消息會(huì)如何滿足會(huì)員的需求。為了確保我們對(duì)個(gè)性化消息傳遞方案的創(chuàng)新能為會(huì)員帶來(lái)更好體驗(yàn),我們采用 A/B 測(cè)試來(lái)學(xué)習(xí)并確認(rèn)我們的假設(shè)。

在 Netflix 當(dāng)消息傳遞數(shù)據(jù)科學(xué)家有一點(diǎn)很令人興奮,那就是我們正在積極開發(fā)和使用復(fù)雜的學(xué)習(xí)模型來(lái)幫助我們更好地為我們的會(huì)員服務(wù)。這些模型以bandit算法為基礎(chǔ),會(huì)不斷地走多了解一些會(huì)員對(duì)消息傳遞的偏好與將學(xué)到的這些知識(shí)用于讓會(huì)員更滿意之間做出平衡。這就像一個(gè)持續(xù)的 A/B 測(cè)試,總是在部署新的治療方法。這個(gè)框架讓我們得以進(jìn)行許多令人興奮的,具有挑戰(zhàn)性的分析,而不必每次都部署新的 A/B 測(cè)試。

證據(jù)選擇

當(dāng)會(huì)員打開 Netflix app時(shí),我們的目標(biāo)是幫助他們選擇一部非常適合他們的作品。其中的一種做法是不斷改進(jìn)推薦系統(tǒng),為每一位會(huì)員提供個(gè)性化的主頁(yè)體驗(yàn)。除了作品推薦以外,我們還會(huì)努力挑選和展示同樣個(gè)性化的藝術(shù)作品、圖像以及其他的視覺“證據(jù)”,并幫助每個(gè)會(huì)員了解為什么特定作品對(duì)他們來(lái)說(shuō)是一個(gè)不錯(cuò)的選擇——尤其是如果該作品對(duì)服務(wù)來(lái)說(shuō)是新的,或該會(huì)員不熟悉的話。

為了實(shí)現(xiàn)這一目標(biāo),關(guān)鍵是要有卓越的創(chuàng)意以及對(duì)證據(jù)選擇系統(tǒng)的持續(xù)改進(jìn)。在證據(jù)選擇領(lǐng)域工作的數(shù)據(jù)科學(xué)家運(yùn)用在線實(shí)驗(yàn)以及離線分析,為兩方面的產(chǎn)品決策提供健壯的因果洞察。這兩方面的產(chǎn)品決策包括創(chuàng)建證據(jù)資產(chǎn)(比方說(shuō)出現(xiàn)在 Netflix 主頁(yè)上的圖片),以及建立將會(huì)員與證據(jù)配對(duì)的模型。

這一領(lǐng)域的數(shù)據(jù)科學(xué)家站在內(nèi)容創(chuàng)建與產(chǎn)品開發(fā)的交叉點(diǎn)上,他們面臨著一些獨(dú)特的挑戰(zhàn):

預(yù)測(cè)證據(jù)性能。假設(shè)我們?cè)陂_發(fā)一種生成證據(jù)的新方法(比方說(shuō)預(yù)告片)。理想情況下,我們希望,在做出可能需要時(shí)間才能獲得回報(bào)的潛在巨額投資之前,對(duì)新的證據(jù)類型的積極成果要有所了解。通過(guò)開發(fā)出可用因果關(guān)系驗(yàn)證的預(yù)測(cè)模型,數(shù)據(jù)科學(xué)家可以幫助為此類投資決策提供信息。

將會(huì)員與最佳證據(jù)匹配。高質(zhì)量且選擇正確的證據(jù)是為所有Netflix會(huì)員帶來(lái)出色經(jīng)驗(yàn)的關(guān)鍵。我們?cè)跍y(cè)試和了解哪些類型的證據(jù)最有效,以及如何將會(huì)員與最佳證據(jù)相匹配的同時(shí),還努力通過(guò)投資于有效的 A/B 測(cè)試方法,最大限度地減少潛在的不利因素,從而讓我們得以快速停止次優(yōu)的治療體驗(yàn)。

為證據(jù)開發(fā)提供及時(shí)的因果反饋。來(lái)自數(shù)據(jù)(包括來(lái)自 A/B 測(cè)試)的洞察,被廣泛用來(lái)推動(dòng)創(chuàng)作出更好的藝術(shù)品、預(yù)告片以及其他類型的證據(jù)。除了 A/B 測(cè)試以外,我們還致力于開發(fā)實(shí)驗(yàn)設(shè)計(jì)與分析框架,從而提供細(xì)粒度的因果推理,并跟上我們學(xué)習(xí)議程的規(guī)模。我們使用了contextual bandit算法框架,從而最大限度地減少將會(huì)員與證據(jù)匹配的遺憾,而且通過(guò)與我們的算法工程團(tuán)隊(duì)的合作,我們已經(jīng)建立了記錄反設(shè)事實(shí)的能力:換一種的選擇策略會(huì)推薦什么內(nèi)容?這些數(shù)據(jù)為我們提供了一個(gè)平臺(tái),用來(lái)運(yùn)行豐富的離線實(shí)驗(yàn),并得出因果推理,從而應(yīng)對(duì)我們的挑戰(zhàn),并回答 A/B 測(cè)試可能難以回答的問題。

流媒體

既然你已經(jīng)注冊(cè)了 Netflix ,而且發(fā)現(xiàn)了一些令人興奮的內(nèi)容,那么當(dāng)你按下播放時(shí)會(huì)發(fā)生什么呢?在幕后,Netflix 的基礎(chǔ)設(shè)施已經(jīng)啟動(dòng),會(huì)尋找用最快的方式把你選擇的內(nèi)容用出色的音頻和視頻質(zhì)量提供給你。

參與提供高質(zhì)量音頻和視頻的眾多工程團(tuán)隊(duì)用 A/B 測(cè)試來(lái)改善我們?yōu)槿驎?huì)員提供的體驗(yàn)。創(chuàng)新領(lǐng)域包括 Netflix App 本身(需要兼容數(shù)千種設(shè)備)、編碼算法,以及對(duì)內(nèi)容在我們的全球 Open Connect 分發(fā)網(wǎng)絡(luò)上放置位置的優(yōu)化方法。

這個(gè)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)科學(xué)角色強(qiáng)調(diào)的是大規(guī)模實(shí)驗(yàn)以及對(duì)工程團(tuán)隊(duì)自主實(shí)驗(yàn)的支持:我們?cè)趺床拍茏屵@些團(tuán)隊(duì)高效、有信心地執(zhí)行、分析A/B 測(cè)試,并基于此做出決策?我們將探討數(shù)據(jù)科學(xué)與工程團(tuán)隊(duì)之間的合作關(guān)系令本領(lǐng)域受益的四種方式。

自動(dòng)化。由于流媒體實(shí)驗(yàn)數(shù)量眾多(每年數(shù)千次)且持續(xù)時(shí)間往往很短,因此我們已經(jīng)對(duì)工作流自動(dòng)化進(jìn)行了投資。比方說(shuō),我們通過(guò)將實(shí)驗(yàn)平臺(tái)的 API 直接跟 Spinnaker 部署管道集成,搭載在Netflix的工具上,安全地部署在 Netflix 客戶端。這使得工程師可以用一個(gè)配置文件設(shè)置、分配和分析他們所做變更的效果。這個(gè)模式更進(jìn)一步的話,用戶甚至可以通過(guò)將一個(gè)實(shí)驗(yàn)跑多輪實(shí)現(xiàn)“自動(dòng)化的自動(dòng)化”,以實(shí)現(xiàn)順序優(yōu)化。

超越平均水平的處理效應(yīng)。由于許多重要的流媒體視頻和音頻指標(biāo)不能很好地逼近正態(tài)分布,我們發(fā)現(xiàn)超越平均的處理效應(yīng)至關(guān)重要。為了克服這些挑戰(zhàn),我們與實(shí)驗(yàn)平臺(tái)合作開發(fā)和集成了用于壓縮數(shù)據(jù)的高性能自助方法,從而可以快速估計(jì)處理效應(yīng)的分布與分位數(shù),甚至包括最病態(tài)的指標(biāo)。對(duì)分位數(shù)進(jìn)行可視化可以為我們帶來(lái)關(guān)于處理效應(yīng)的新洞察,這些圖表現(xiàn)在已經(jīng)可以自動(dòng)生成,作為自動(dòng)化報(bào)告的一部分,往往被用來(lái)給高級(jí)產(chǎn)品決策提供直接支撐。

A/B 測(cè)試的替代方案。 Open Connect 工程團(tuán)隊(duì)面臨著眾多的衡量挑戰(zhàn)。擁塞會(huì)導(dǎo)致實(shí)驗(yàn)組與對(duì)照組之間發(fā)生交互;或者其他情況下,由于我們的流量導(dǎo)向算法的特性,我們沒法做到隨機(jī)化。為了應(yīng)對(duì)這種種挑戰(zhàn),我們正在對(duì)準(zhǔn)實(shí)驗(yàn)方法進(jìn)行大力投資。我們采用了Metaflow,將用于指標(biāo)定義的現(xiàn)有基礎(chǔ)設(shè)施,來(lái)自我們的實(shí)驗(yàn)平臺(tái)(Experimentation Platform)的數(shù)據(jù)收集,與基于雙差法的自定義分析方法配對(duì)。這個(gè)工作流程使得我們能夠快速部署自助服務(wù)工具,來(lái)衡量傳統(tǒng) A/B 測(cè)試無(wú)法衡量的變化。此外,我們的模塊化方法讓跨 Open Connect 用例擴(kuò)展準(zhǔn)實(shí)驗(yàn)變得很容易,這使得我們能夠根據(jù)每個(gè)團(tuán)隊(duì)的不同需求更換數(shù)據(jù)源或分析方法。

支持自定義的指標(biāo)與維度。最后,我們開辟了一條(相對(duì))無(wú)障礙的路徑,讓所有的實(shí)驗(yàn)者(不僅僅是數(shù)據(jù)科學(xué)家)在需要的時(shí)候可以快速創(chuàng)建自定義的指標(biāo)與維度。除了我們?yōu)樵擃I(lǐng)域的所有測(cè)試準(zhǔn)備的長(zhǎng)期體驗(yàn)質(zhì)量指標(biāo)以外,任何可以記錄的內(nèi)容都可以快速傳送到實(shí)驗(yàn)平臺(tái),進(jìn)行分析與可視化。如此,我們的工程師就可以沿著鋪砌好的道路提出和回答更精確的問題,這樣他們就可以少花些時(shí)間去摸清楚門道,而有更多的時(shí)間去測(cè)試令人興奮的想法。

擴(kuò)大實(shí)驗(yàn)規(guī)模,投資基礎(chǔ)設(shè)施

為了支持 Netflix 實(shí)驗(yàn)計(jì)劃的規(guī)模與復(fù)雜性,我們下力氣開發(fā)了自己的實(shí)驗(yàn)平臺(tái)(內(nèi)部叫做“XP”)。我們的 XP 為實(shí)驗(yàn)的整個(gè)生命周期(從體驗(yàn)管理到分析)提供強(qiáng)大的自動(dòng)化(或半自動(dòng)化)解決方案,并能滿足大型測(cè)試的高吞吐量產(chǎn)生的數(shù)據(jù)規(guī)模要求。

XP 提供了一個(gè)框架,讓工程團(tuán)隊(duì)可以在代碼中定義一組測(cè)試處理體驗(yàn),然后用這些來(lái)配置實(shí)驗(yàn)。之后,平臺(tái)會(huì)隨機(jī)選擇會(huì)員(或我們可能要進(jìn)行實(shí)驗(yàn)的其他單元,如回放會(huì)話),分配給實(shí)驗(yàn),然后將其隨機(jī)分配給每個(gè)實(shí)驗(yàn)里面的體驗(yàn)(對(duì)照體驗(yàn)或?qū)嶒?yàn)體驗(yàn))。 調(diào)用XP的Netflix 服務(wù)然后會(huì)根據(jù)會(huì)員參與了哪些測(cè)試以及這些測(cè)試中的哪些變體,確保提供了正確的體驗(yàn)。我們的數(shù)據(jù)工程系統(tǒng)則會(huì)收集這些測(cè)試元數(shù)據(jù),然后再將它們跟我們的核心數(shù)據(jù)集相結(jié)合起來(lái):包括關(guān)于會(huì)員和非會(huì)員如何與服務(wù)交互的日志、跟蹤流視頻傳輸?shù)募夹g(shù)指標(biāo)的日志等等。然后,這些數(shù)據(jù)會(huì)流經(jīng)自動(dòng)分析管道,并用Ablaze( Netflix 報(bào)告和配置實(shí)驗(yàn)的前端)生成報(bào)告。跟 Netflix 的文化一致,公司里面的每個(gè)人都可以訪問測(cè)試結(jié)果,而不僅限于數(shù)據(jù)科學(xué)家和決策者。

除了考慮當(dāng)前的實(shí)驗(yàn)計(jì)劃以外,Netflix XP還用對(duì)未來(lái)創(chuàng)新的關(guān)注加以平衡。這是一個(gè)良性的飛輪,因?yàn)?XP 的目標(biāo)是利用今年實(shí)驗(yàn)計(jì)劃所突破的極限,把它變成明年的一鍵式解決方案。這可能涉及開發(fā)用于將會(huì)員(或其他單元)分配給實(shí)驗(yàn)的新的解決方案,跟蹤不同測(cè)試存在沖突的新方法,或者是實(shí)驗(yàn)設(shè)計(jì)、分析以及基于實(shí)驗(yàn)做決策的新方法。比方說(shuō),XP 就跟我們的工程團(tuán)隊(duì)在功能標(biāo)記與體驗(yàn)交付方面密切合作。這些努力成功地為 Netflix的開發(fā)人員提供了無(wú)縫體驗(yàn),得以將實(shí)驗(yàn)完全集成到軟件開發(fā)生命周期之中。

為了分析實(shí)驗(yàn),我們開發(fā) Netflix XP 的時(shí)候就考慮了大眾化與模塊化。大眾化是指數(shù)據(jù)科學(xué)家(還有其他用戶)可以直接貢獻(xiàn)指標(biāo)、分析測(cè)試的因果推理方法以及可視化。通過(guò)這三個(gè)模塊,實(shí)驗(yàn)者可以編寫靈活的報(bào)告,量身定制自己的測(cè)試,然后送到我們的前端 UI 以及支持臨時(shí)和探索性分析的notebook環(huán)境。

這種模式可以支持快速原型設(shè)計(jì)與創(chuàng)新,當(dāng)我們對(duì)工程問題進(jìn)行抽象時(shí),數(shù)據(jù)科學(xué)家就可以直接向生產(chǎn)實(shí)驗(yàn)平臺(tái)貢獻(xiàn)代碼——而不必自己成為軟件工程師。隨著分析方法變得更加復(fù)雜,對(duì)計(jì)算要求更高,為了確保平臺(tái)功能能夠支持所需的規(guī)模(測(cè)試的數(shù)量和規(guī)模),我們已經(jīng)對(duì)專業(yè)知識(shí)的形成進(jìn)行了投資,從而為測(cè)試分析提供健壯的計(jì)算型因果推理軟件。

搭建實(shí)驗(yàn)平臺(tái)需要同理合作:軟件工程師搭建和維護(hù)后端工程基礎(chǔ)設(shè)施; UI 工程師開發(fā)用于管理和分析實(shí)驗(yàn)的ABlaze前端;具備因果推理和數(shù)值計(jì)算專業(yè)知識(shí)的數(shù)據(jù)科學(xué)家則可以開發(fā)、實(shí)施、擴(kuò)展尖端的方法并將其社會(huì)化;還需要確保利益相關(guān)者可以訪問我們的產(chǎn)品的用戶體驗(yàn)設(shè)計(jì)師;以及讓平臺(tái)本身朝著正確方向創(chuàng)新的產(chǎn)品經(jīng)理。這是一項(xiàng)令人難以置信的工作,需要多學(xué)科的努力,在XP這里工作提供了發(fā)展跨學(xué)科的廣泛技能的機(jī)會(huì)。由于 Netflix 的實(shí)驗(yàn)是那么的普遍,那些從事 XP 工作的人會(huì)面臨挑戰(zhàn),并與來(lái)自 Netflix 各個(gè)角落的同事合作。這是從各種角度廣泛了解“Netflix 工作機(jī)制”的好途徑。

總結(jié)

Netflix對(duì)數(shù)據(jù)科學(xué)團(tuán)隊(duì)進(jìn)行投資。這些團(tuán)隊(duì)會(huì)利用 A/B 測(cè)試、其他實(shí)驗(yàn)范式,以及更廣泛的科學(xué)方法,從而支持為當(dāng)前和未來(lái)會(huì)員提供的產(chǎn)品的持續(xù)創(chuàng)新。同時(shí),我們投資建立了一個(gè)內(nèi)部的實(shí)驗(yàn)平臺(tái) (XP),以支持我們的實(shí)驗(yàn)與學(xué)習(xí)計(jì)劃的那種規(guī)模及復(fù)雜性。

在實(shí)踐上,這兩方面投資之間的界限其實(shí)很模糊,我們鼓勵(lì) XP 以及面向業(yè)務(wù)的數(shù)據(jù)科學(xué)家之展開合作,包括舉辦 A/B 實(shí)驗(yàn)研討會(huì)以及因果推理峰會(huì)等內(nèi)部活動(dòng)。為了確保 Netflix 的實(shí)驗(yàn)?zāi)芰Σ粩喟l(fā)展,從而滿足實(shí)驗(yàn)從業(yè)者的實(shí)際需求,對(duì)于開發(fā)新的測(cè)量與實(shí)驗(yàn)管理能力,以及支持和擴(kuò)展研究的新軟件系統(tǒng),我們有意識(shí)地確保XP 與實(shí)驗(yàn)從業(yè)者之間的通力合作。此外,我們有意識(shí)的協(xié)作還為大家提供了很好的機(jī)會(huì),讓他們得以領(lǐng)導(dǎo)和貢獻(xiàn)出高影響力的項(xiàng)目,為我們提供了工程、測(cè)量以及內(nèi)部產(chǎn)品開發(fā)等方面的新能力。由于 Netflix 對(duì)實(shí)驗(yàn)的戰(zhàn)略價(jià)值,這些合作努力受到了包括我們的高管在內(nèi)的廣泛關(guān)注。

到目前為止,本系列已經(jīng)討論了 A/B 測(cè)試的原因、內(nèi)容與方式,產(chǎn)品開發(fā)要想從實(shí)驗(yàn)型方案中收獲好處,所有這些都是必需的。但是要是沒有一點(diǎn)魔法的話,光有這些基礎(chǔ)還是不夠的。這種魔法將成為本系列下一篇,也是最后一篇文章的重點(diǎn):貫穿 Netflix上下的學(xué)習(xí)與實(shí)驗(yàn)文化。敬請(qǐng)關(guān)注。

譯者:boxi。

關(guān)鍵詞: 如何做 焦點(diǎn) Netflix

相關(guān)閱讀:
熱點(diǎn)
圖片 圖片