首頁>資訊 >
Netflix是如何做決策的?(七):學(xué)習(xí)的文化 2022-02-15 16:23:16  來源:36氪

神譯局是36氪旗下編譯團隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風(fēng)向。

編者按:決策是行動的指南。不管是個人還是企業(yè),每天都要面臨著無數(shù)的決策。決策的好壞會對結(jié)果產(chǎn)生巨大影響,如何做好決策是每個人都要上的一門必修課。在Netflix這里,他們采用了一種以實驗為導(dǎo)向的決策流程,先小范圍地對不同方案進行測試,根據(jù)對比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/B測試做出決策的系列文章。本文來自編譯,是系列文章的第七篇,也是最后一篇,談的是學(xué)習(xí)文化的重要性。

劃重點:

Netflix強調(diào)了從數(shù)據(jù)中學(xué)習(xí)的重要性

學(xué)習(xí)與實驗滲透到了Netflix的各個地方

實驗對 Netflix 來說是一種雙贏的價值主張

相關(guān)閱讀:

Netflix 是如何做決策的?(一):介紹

Netflix是如何做決策的?(二):什么是 A/B 測試?

Netflix是如何做決策的?(三):誤報與統(tǒng)計顯著性

Netflix是如何做決策的?(四):漏報與功效

Netflix是如何做決策的?(五):樹立對決策的信心

Netflix是如何做決策的?(六):實驗是主要關(guān)注焦點

本系列的前幾篇文章介紹了A/B 測試的WHY、WHAT以及HOW,所有這些都是產(chǎn)品開發(fā)從實驗中獲益所必需的。但是如果不加上一點魔法的話,光有這些還是不夠的。

怎么把實驗的原材料轉(zhuǎn)化成渦輪增壓的產(chǎn)品創(chuàng)新?其中的秘訣在于文化。文化的發(fā)展壯大從來沒有捷徑可走,培養(yǎng)實驗文化也不例外。要想讓領(lǐng)導(dǎo)層支持聚焦 A/B 測試的學(xué)習(xí)方法、建立起對測試結(jié)果的信任,以及形成大規(guī)模實施實驗的技術(shù)能力,這些都需要時間——尤其是對這些想法不熟悉的組織要想做到的話更是需要時間。但是通過科學(xué)方法進行實驗所帶來的回報,以及讓產(chǎn)品開發(fā)形成良性循環(huán)是非常值得的。關(guān)于如何啟動實驗飛輪以及建立實驗文化,我們在微軟的同事分享了一些考慮周到的出版物,而他們的“從爬到走再到跑最后飛起來”(rawl, Walk, Run, Fly)的模型是評估實驗實踐成熟度的好工具。

在 Netflix這里,我們幾十年來一直都在利用實驗和科學(xué)方法,并且很幸運擁有成熟的實驗文化。實驗文化得到了包括高層在內(nèi)的全公司的的廣泛支持,只要有可能,A/B 測試或其他因果推理方法的結(jié)果幾乎就是決策的必需。我們還對教育計劃進行投資,從而提高公司范圍內(nèi)對我們怎么用 A/B 測試作為產(chǎn)品開發(fā)框架的理解。事實上,本系列的大部分材料都改編自我們內(nèi)部的實驗 101 和 201 課程(面向Netflix全員開放)。

Netflix是學(xué)習(xí)型組織

作為一家企業(yè),Netflix有組織地強調(diào)了從數(shù)據(jù)中學(xué)習(xí)的重要性,這也包括了從 A/B 測試中的學(xué)習(xí)。我們的數(shù)據(jù)和洞察組織有團隊跟公司的各個部門合作,為了解全球各地的內(nèi)容偏好,提供無縫的客戶支持體驗提供支持。我們采用了定性與定量結(jié)合的消費者研究、分析、實驗、預(yù)測建模等工具來深入了解會員。我們擁有數(shù)據(jù)管道,為從面向執(zhí)行人員的儀表板到個性化系統(tǒng)提供支持,從而幫助將Netflix 會員與適當(dāng)?shù)膬?nèi)容建立關(guān)聯(lián)。這種數(shù)據(jù)驅(qū)動的思維方式已經(jīng)是滲透到公司的各個層面,就連Netflix的最高領(lǐng)導(dǎo)層也是數(shù)據(jù)和洞察力組織的體現(xiàn)。

Netflix的企業(yè)文化是用數(shù)據(jù)說話

正如第 6 部分所討論的那樣,我們有部分專注于實驗與因果推理的數(shù)據(jù)科學(xué)家在跟Netflix 的產(chǎn)品創(chuàng)新團隊合作。這些數(shù)據(jù)科學(xué)家會設(shè)計和執(zhí)行測試,從而為學(xué)習(xí)議程提供支持,并為決策做出貢獻。通過深入研究某個測試結(jié)果的細節(jié)、尋找不同測試之間的共同模式,以及探索其他的數(shù)據(jù)源,這些 Netflix 數(shù)據(jù)科學(xué)家積累了有關(guān) Netflix 體驗各個方面的領(lǐng)域?qū)I(yè)知識,并成為產(chǎn)品經(jīng)理和工程領(lǐng)導(dǎo)者的重要合作伙伴。數(shù)據(jù)科學(xué)家通過評估機會大小以及確定適合創(chuàng)新的領(lǐng)域來幫助塑造 Netflix 產(chǎn)品的發(fā)展,并經(jīng)常會提出隨后需經(jīng)過測試的假設(shè)。

我們還投資了一個廣泛而靈活的實驗平臺,讓我們的實驗計劃能夠隨著公司對學(xué)習(xí)和了解的雄心壯大而擴展。就像 Netflix 產(chǎn)品本身這些年來一直在不斷發(fā)展一樣,我們支持大規(guī)模實驗的技術(shù)開發(fā)手段也在不斷發(fā)展。事實上,這20 多年來,我們一直致力于改進 Netflix 的實驗平臺解決方案——我們對支持 A/B 測試的工具的第一筆投資可以追溯到 2001 年。

Netflix 的 Stan Lanning在2001年開發(fā)的早期實驗工具。

學(xué)習(xí)與實驗滲透到了Netflix的各個地方

Netflix 擁有獨特的內(nèi)部文化,這種文化強化了實驗和科學(xué)方法的使用。作為一家公司,我們的目標(biāo)是保持好奇心,真正地、誠實地去了解我們在世界各地的會員,并服務(wù)好他們。我們在思想上也保持開放,知道偉大的想法可能會來自不太可能的來源。對于學(xué)習(xí)和做出大決策來說,沒有一種辦法能優(yōu)于運用嚴(yán)格測試的力量來確認(rèn)或證偽想法。公開、坦誠地分享測試結(jié)果可以讓 Netflix 的每個人對會員形成直覺,并就我們?nèi)绾螢樗麄兲峁└玫捏w驗提出想法——于是就啟動了一個良性循環(huán)。

事實上,Netflix隨時要跑的測試太多了,以至于某位會員可能會同時被分配到多個測試之中。其實Netflix 作為產(chǎn)品并不是一個:在任何特定時間,我們都在測試大量的產(chǎn)品變體,始終致力于尋求進一步了解如何為現(xiàn)有會員帶來更多樂趣,同時吸引新的會員。有些測試,比方說十大排行榜,是用戶很容易就能注意到的,而其他一些測試,比方說個性化以及搜索系統(tǒng)的變更,或者流媒體視頻的編碼與提供,則不太明顯。

在 Netflix這里,我們不懼大膽的測試,不怕挑戰(zhàn)基本的或長期固有的假設(shè)。在這兩點上,十大排行榜都是一個很好的例子:對于在Netflix產(chǎn)品上面暴露一種新型證據(jù)來說,十大排行榜屬于巨大而顯著的改變。像這樣的大型測試可以開辟出全新的創(chuàng)新領(lǐng)域,在公司內(nèi)部也會引起積極的辯論(見下文)。而在另一方面,我們也會展開更小規(guī)模的測試,以優(yōu)化產(chǎn)品的方方面面。一個很好的例子是我們?yōu)閷ふ倚麄鳟a(chǎn)品各方面的正確文案所做的測試。就數(shù)字而言,這些更小的,不那么不引人注目的測試要多得多,我們投資于端到端的基礎(chǔ)設(shè)施,目的是簡化實驗的執(zhí)行,讓產(chǎn)品團隊能夠快速地從假設(shè)走到測試,最后推出成功的體驗。比方說,莎士比亞項目為快速的文案測試提供了一個端到端的解決方案,并且與 Netflix 集中式的實驗平臺集成到一起。說得更寬泛一點,我們一直在尋找可以從實驗中受益的新領(lǐng)域,或者其他的方法或工具可以帶來新的或更快的學(xué)習(xí)的領(lǐng)域。

數(shù)據(jù)科學(xué)家不是數(shù)據(jù)的看門人,而是數(shù)據(jù)的向?qū)?/p>

對測試展開辯論,以及謙遜的重要性

Netflix 有一套成熟的運營機制來對產(chǎn)品決策的辯論制訂以及社會化進行管控。 Netflix 不會通過委員會或?qū)で蠊沧R來做出決定。取而代之的是,對于每一個重大決策,我們都有一位“見多識廣的隊長”,在消化相關(guān)數(shù)據(jù)以及同事的意見(包括不同的觀點)后,此人將最終負(fù)責(zé)做出判斷。在可能的情況下,A/B 測試結(jié)果或因果推理研究是該決策過程的預(yù)期輸入。

事實上,不僅產(chǎn)品決策需要測試結(jié)果,創(chuàng)新和測試的投資領(lǐng)域決策、重大創(chuàng)新的測試計劃、重大測試的結(jié)果等,這些都要總結(jié)進備忘錄,廣泛社會化,并積極討論。進行相關(guān)辯論的論壇大家都可以訪問,確保有人反饋關(guān)于測試設(shè)計和結(jié)果的不同觀點,并對決策做出權(quán)衡。進入這些論壇的邀請對任何有興趣的人開放,入場費只需要看備忘錄。盡管公司高管也經(jīng)常光顧這些地方,但這里很顯然沒有等級之分,因為一切都要靠數(shù)據(jù)說話。

Netflix 數(shù)據(jù)科學(xué)家是這些論壇的積極參與者以及有價值的參與者。數(shù)據(jù)科學(xué)家應(yīng)該為數(shù)據(jù)說話,說明從實驗結(jié)果中可以得出以及不可以得出什么結(jié)論,不同的實驗設(shè)計的優(yōu)缺點等等。盡管數(shù)據(jù)科學(xué)家不是產(chǎn)品決策的知情隊長,但作為數(shù)據(jù)的解釋者,他們是關(guān)鍵產(chǎn)品決策的積極貢獻者。

通過實驗幫助產(chǎn)品進化可以是一種讓人心生謙卑的體驗。在 Netflix這里,我們擁有開發(fā)和演進 Netflix 服務(wù)所需的各個學(xué)科的專家(產(chǎn)品經(jīng)理、UI/UX 設(shè)計師、數(shù)據(jù)科學(xué)家、各種類型的工程師、推薦系統(tǒng)與流視頻優(yōu)化專家等等),他們會不斷提出關(guān)于如何改進 Netflix 的新假設(shè)。但在提出的想法當(dāng)中,只有一小部分最終能成為 A/B 測試的贏家。沒錯:盡管我們擁有廣泛的專業(yè)知識,但會員通過自己在 A/B 測試中的行為讓我們知道,我們的大多數(shù)想法其實并沒有改善我們的服務(wù)。我們每年開發(fā)和測試數(shù)百種的產(chǎn)品變體,但只有一小部分最終投入到生產(chǎn)并推廣給全球 2 億多的 Netflix 會員。

實驗計劃的勝率很低既令人謙卑又令人振奮。當(dāng)公司的任何人都可以看到相關(guān)數(shù)據(jù),知道哪些重大想法和投資并未受到效果時,你很難再挺起高傲的頭顱。但是,當(dāng)看到所有專家都看好的想法被 A/B 測試中的會員行為否決——并且看到對注冊流程的微小調(diào)整最終會帶來巨大收入時,還有比這更能證明通過實驗進行決策的價值嗎?

在Netflix這里,我們不會把未能帶來勝出體驗的測試看作是“失敗”。當(dāng)我們的會員用他們的行為否決了新產(chǎn)品體驗時,我們?nèi)匀粫私夂芏嚓P(guān)于他們的偏好、哪些對不同的會員群體有效(哪些無效?。?,以及哪些地方可能或者不可能存在創(chuàng)新機會的信息。將我們從特定跟創(chuàng)新領(lǐng)域(比方說移動 UI體驗)測試中獲得的經(jīng)驗結(jié)合起來,可以幫助我們更全面地描繪讓會員產(chǎn)生共鳴和不產(chǎn)生共鳴的體驗類型,從而得出新的假設(shè)、新的測試,并最終,為我們的會員帶來更快樂的體驗。隨著我們的會員群體在全球范圍內(nèi)不斷擴大,隨著消費者偏好與期望的不斷演進,我們也會重新審視當(dāng)粗測試時不成功的那些想法。有時候,來自原始分析的信號表明現(xiàn)在是這個想法的更好時機,或者將會為我們的部分新會員群體提供價值。

因為 Netflix 會測試所有的創(chuàng)意,而且因為大多數(shù)的創(chuàng)意都不是贏家,所以我們的實驗文化鼓勵創(chuàng)意的民主化。產(chǎn)品經(jīng)理總是渴望新想法,并樂于接受來自公司任何人的創(chuàng)新建議,無論對方資歷或?qū)I(yè)知識如何都從善如流。畢竟,在推廣到會員群體之前,我們會測試任何東西,就算是專家,成功率也很低!我們在 Netflix 已經(jīng)反復(fù)看到這一點,即我們的工程師、數(shù)據(jù)科學(xué)家甚至高管提出的大大小小的產(chǎn)品建議可能也會帶來意想不到的勝利。

(左)成為贏家的想法很少。 (右)實驗讓創(chuàng)意民主化。因為我們會測試所有的想法,并且因為大多數(shù)想法都不是勝利者,所以我們對來自公司各個角落的產(chǎn)品想法持開放態(tài)度:任何人都可以舉手提出建議。

實驗文化使得更多的聲音為創(chuàng)意做出貢獻,而更多的聲音則可以為決策提供信息。這是從每一位個從事產(chǎn)品工作的人獲取最佳想法,并確保推出的創(chuàng)新得到會員的審查和認(rèn)可的手段。

為我們的會員提供更好的產(chǎn)品,以及謙遜、重視想法和證據(jù)的內(nèi)部文化:實驗對 Netflix 來說是一種雙贏的價值主張。

新興的研究領(lǐng)域

盡管 Netflix 幾十年來一直在進行實驗,但相對于我們想要學(xué)習(xí)的東西以及支持這些學(xué)習(xí)上的抱負(fù)所需建立的能力,我們只觸及了一點皮毛。在 Netflix 這里,關(guān)于實驗與因果推理的挑戰(zhàn)和機遇是開放的:探索和實現(xiàn)新的方法,讓我們能夠更快更好地學(xué)習(xí);開發(fā)支持研究的軟件解決方案;不斷建設(shè)我們的內(nèi)部實驗平臺,從而更好地服務(wù)于不斷壯大的用戶社區(qū)以及不斷擴大的實驗規(guī)模與吞吐量。通過內(nèi)部活動與教育計劃以及外部的貢獻,我們對發(fā)展壯大實驗文化的關(guān)注是持續(xù)的。以下是我們關(guān)注的一些主題:

提高速度:超越固定時間范圍的實驗。

本系列文章側(cè)重于固定時間范圍的測試:樣本量、分配給每個治療體驗的流量比例,還有測試的持續(xù)時間,這些都是預(yù)先確定的。原則上,數(shù)據(jù)只有在測試結(jié)束的時候才檢查一次。這確保了多次查看數(shù)據(jù)不會增加誤報率(參見第 3 部分)。在實踐上,我們希望能夠盡早安排測試,或者在我們逐漸了解哪些治療成功,哪些不成功時能夠調(diào)整入端流量的分配方式,以維系本系列前面分所描述的那些統(tǒng)計屬性。為了實現(xiàn)這些好處,Netflix 正在投資于可隨時做出有效決策的連續(xù)實驗,而不是等到固定時間的過去。這些方法已應(yīng)用到確保安全部署 Netflix 客戶端應(yīng)用上。我們還投資于實驗設(shè)計的支撐,實現(xiàn)在整個測試過程中流量自適應(yīng)分配給有希望的治療手段。這兩項努力的目標(biāo)是相同的:那就是更快速地識別出有益于會員的體驗。

擴大對準(zhǔn)實驗與因果推理的支持。

Netflix 已經(jīng)學(xué)到了很多東西,而且通過利用經(jīng)典的在線 A/B 測試或隨機對照試驗(這也是本系列文章關(guān)注的重點),幾乎產(chǎn)品的每個方面都得到了顯著改善。但并不是每一個業(yè)務(wù)問題都適合用 A/B 測試,因為有些問題沒法在個人層面上隨機化,或者存在溢出效應(yīng)等因素可能會打破有效因果推理的關(guān)鍵假設(shè)。在這些情況下,我們往往要靠對準(zhǔn)實驗進行嚴(yán)格評估。所謂的準(zhǔn)實驗,是指單元不是通過隨機過程分配到實驗組或控制組的。但“準(zhǔn)實驗”這個詞本身涵蓋了廣泛的實驗設(shè)計與方法論,這些與以 Netflix 數(shù)據(jù)科學(xué)社區(qū)為代表的無數(shù)學(xué)術(shù)背景之間存在著差異。那怎么才能跨不同領(lǐng)域去綜合最佳實踐,同時擴展我們的方法,從而讓更多的同事能夠利用準(zhǔn)實驗?zāi)兀?/p>

我們在這一領(lǐng)域的早期成功得益于對跨業(yè)務(wù)垂直領(lǐng)域的知識分享、教育以及支撐工具的投資。由于準(zhǔn)實驗用例跨越了 Netflix 的眾多領(lǐng)域,識別出常見模式一直是建立共享庫的強大驅(qū)動力。通過這些共享的庫,科學(xué)家可以對準(zhǔn)實驗做出評估。為了支撐規(guī)模的持續(xù)擴大,我們構(gòu)建了內(nèi)部工具,將數(shù)據(jù)檢索、設(shè)計評估、分析以及可重生成的報告結(jié)合起來,旨在為我們的科學(xué)家提供支持。

我們預(yù)計,對準(zhǔn)實驗研究、工具與教育方面的投資會隨著時間的推移而增長。這件事情做好了,科學(xué)家及其跨職能的合作伙伴就能夠了解到更多的東西,從而為當(dāng)前和未來的 Netflix 會員帶來更多快樂。

實驗平臺即產(chǎn)品。

我們把 Netflix 實驗平臺看作是一個內(nèi)部產(chǎn)品,還配備了自己的產(chǎn)品經(jīng)理,并設(shè)計了創(chuàng)新的路線圖。我們的目標(biāo)是為配置、分配、監(jiān)控、報告、存儲和分析 A/B 測試提供一條鋪好的端到端的道路,把焦點放在為簡單性和測試速度而優(yōu)化的實驗用例上面。我們的目標(biāo)是讓實驗成為產(chǎn)品生命周期當(dāng)中一個簡單的,不可分割的一部分,讓工程師、數(shù)據(jù)科學(xué)家或產(chǎn)品經(jīng)理只需很少的努力即可創(chuàng)建、分析和執(zhí)行測試,并且只要測試所有者需要,在任何地方都可以采用自動化。

但是,如果平臺的默認(rèn)路徑對特定用例不適用,實驗者可以利用我們的大眾化貢獻模式,或人員重用平臺的各個部分來構(gòu)建自己的解決方案。隨著實驗人員對測量方法、實驗設(shè)計以及自動化的前沿進行創(chuàng)新,在實驗平臺團隊的通力合作下,這些創(chuàng)新將會被商品化,并提供給更廣泛的組織。

我們的實驗平臺的產(chǎn)品開發(fā)有以下三個核心指導(dǎo)原則:

一般要把測試的復(fù)雜性以及微妙之處(比方說分配與方法論)從跑單個測試的過程中抽象出來,重點應(yīng)該放在對一系列用例或測試領(lǐng)域有意義的默認(rèn)值上。 測試執(zhí)行過程中對特定步驟的人工干預(yù)一般應(yīng)該是可選的,重點是測試所有者能夠把注意力集中在他們認(rèn)為可增加價值的地方,同時把其他領(lǐng)域留給自動化處理。 設(shè)計、執(zhí)行、報告、決策與學(xué)習(xí)都是實驗生命周期的不同階段,有著不同的需求與用戶,每個階段都受益于為每種用途而專門開發(fā)的工具。

結(jié)論

Netflix 擁有濃厚的實驗文化,我們通過A/B 測試,或科學(xué)方法的其他應(yīng)用獲得的結(jié)果,往往會為如何改進產(chǎn)品以及給會員帶來更多樂趣的相關(guān)決策提供信息。為了支撐Netflix不斷增長的會員,以及日益復(fù)雜的業(yè)務(wù),我們當(dāng)前和未來的實驗規(guī)模也會不斷擴大,所以Netflix 在文化、人員、基礎(chǔ)設(shè)施以及內(nèi)部教育方面都進行了投資,從而暴增 A/B 測試在全公司范圍內(nèi)都能得到廣泛使用。

我們會繼續(xù)發(fā)展我們的學(xué)習(xí)與實驗文化,為全球的 Netflix 會員帶來更多樂趣。隨著我們的會員群和業(yè)務(wù)的不斷發(fā)展,實驗與控制體驗之間小一點的差異會變得非常重要。這對于會員子群體來說也是如此:隨著會員規(guī)模的增長,我們的服務(wù)可以變得更有針對性,希望能夠為按照地理區(qū)域、設(shè)備類型等定義的用戶群提供好的體驗。隨著我們業(yè)務(wù)的發(fā)展壯大,我們正在尋找可以從實驗受益的新領(lǐng)域,能進行更多實驗、學(xué)到更多東西,以及加快實驗計劃的同時讓更多同事可以進行實驗的方法。

但最大的機會是這個:通過實驗的良性循環(huán),可以為我們的會員帶來更多的快樂。

譯者:boxi。

關(guān)鍵詞:

相關(guān)閱讀:
熱點
圖片 圖片