首頁>資訊 >
全球觀速訊丨如何在你的創(chuàng)業(yè)公司中使用大量的 AI 模型(如GPT-3) 2022-10-31 09:28:50  來源:36氪

神譯局是36氪旗下編譯團隊,關注科技、商業(yè)、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:機器學習技術日新月異,且有很多來自大公司的免費資源可用。初創(chuàng)公司如果能跟上模型變化的速度,正確利用手邊的資源,將能夠在創(chuàng)業(yè)過程中如虎添翼。本文來自編譯,希望對您有所啟發(fā)。

隨著機器學習技術的成熟,并從一開始的好奇研究轉向工業(yè)化的使用,支持大規(guī)模機器學習所需的方法和基礎設施也在不斷發(fā)展。利用這些進展對初創(chuàng)公司來說既是機遇也是風險,幾乎所有的初創(chuàng)公司都在以這樣或那樣的方式利用機器學習,以爭奪市場份額。


【資料圖】

這一過程始于 9 年多以前,2012 年,一份名為 AlexNet 的文件向年度 ImageNet LSVRC 競賽(由研究界舉辦的計算機視覺競賽)提交了參賽作品,啟動了深度學習革命。在這篇論文中,一個三人小組(Alex Krizhevsky, Illya Sutskever 和 Geoffrey Hinton)使用了一種被稱為卷積神經網絡(convolutional neural network)的技術來理解照片的內容。他們輕松地贏得了比賽,以巨大的優(yōu)勢擊敗了其他所有人,而且是用一個用于玩視頻游戲的 700 美元的電腦顯卡訓練出來的系統(tǒng)。

機器學習的世界被永遠地改變了。一年之內,復制 AlexNet 的創(chuàng)業(yè)公司如雨后春筍般涌現。我之前的公司 AlchemyAPI(2015 年被 IBM 收購),早在 2013 年就通過我們的 AlchemyVision 計算機視覺 API 發(fā)布了這項工作的首批商業(yè)版本。這一時期成立的其他創(chuàng)業(yè)公司包括 DeepMind(被谷歌收購)、MetaMind(被Salesforce收購)和 Clarifai 等。學術界也發(fā)生了巨大的轉變,許多專家從對人工智能的懷疑,迅速轉變?yōu)槿硇牡負肀疃葘W習。

時間快進到 2022 年:神經網絡已經改變了我們日常使用的軟件系統(tǒng)中機器智能的各個方面,從識別語音到推薦新聞動態(tài)(無論是好是壞)。今天的系統(tǒng)仍然使用神經網絡,但規(guī)模大不相同。最近用于理解和生成人類語言的系統(tǒng),如 OpenAI 的 GPT-3,是在超級計算機規(guī)模的資源上進行訓練的:數千個 GPU(每個成本至少為 1 萬美元)被編織在高速網絡互連和數據存儲基礎設施的復雜結構中。雖然 2012 年最先進的系統(tǒng)可以在一張 700 美元的視頻游戲卡上訓練,但今天最先進的系統(tǒng)(通常被稱為基礎模型)可能需要數千萬美元的計算量來訓練。

這些大規(guī)模、高成本的基礎模型的出現,為初創(chuàng)公司和其他想要在人工智能和機器學習領域創(chuàng)新的公司帶來了機會、風險和限制。盡管它們可能無法在前沿研究領域與谷歌、Facebook 或 OpenAI 競爭,但小型實體可以利用這些巨頭的工作,包括基礎模型,來啟動自己的機器學習驅動應用程序的開發(fā)。

1. “預訓練”的網絡可以幫助初創(chuàng)公司成長

像 AlexNet 這樣的神經網絡最初是為每項任務從零開始訓練的,當網絡需要在單個游戲硬件上花費數周的時間時,這是可行的,但當網絡規(guī)模、計算資源和訓練數據量開始以數量級增長時,難度就大得多了。這導致了一種被稱為“預訓練”(pre-training)的方法的普及,即神經網絡首先在使用大量計算資源的大型通用數據集上進行訓練,然后使用少量的數據和計算資源對手頭的任務進行微調。

近年來,隨著機器學習的產業(yè)化已經占據了許多領域(如語言或語音處理),以及可用于訓練的數據量急劇增加,預訓練網絡的使用出現了爆炸性增長。例如,使用預先訓練的網絡,初創(chuàng)公司可以用比從零開始所需的更少的數據和計算資源構建產品。這種方法在學術界也越來越流行,研究人員可以快速調整預先訓練過的網絡,以完成一項新任務,然后發(fā)布結果。

對于某些任務領域(包括理解或生成書面文本、識別照片或視頻內容以及音頻處理),預訓練隨著基礎模型(如 BERT、GPT、DALL-E、CLIP 等)的出現而不斷發(fā)展。這些模型在大型通用數據集(通常是數十億個訓練實例)上進行了預訓練,并由資金充足的 AI 實驗室(如谷歌、微軟和 OpenAI)作為開源發(fā)布。

商業(yè)化機器學習應用的創(chuàng)新速度和這些基礎模型的普及效果是不可低估的。對于那些沒有備用超級計算機的工作人員來說,它們就是萬靈藥。它們允許初創(chuàng)公司、研究人員和其他人快速趕上最新的機器學習方法,而不必從頭開始花費時間和資源來訓練這些模型。

2. 基礎模型的風險:規(guī)模、成本和外包創(chuàng)新

然而,在預先訓練的基礎模型領域,并不是一切都是美好的,隨著其被越來越頻繁地使用,也存在一些風險。

與基礎模型相關的風險之一是其不斷擴大的規(guī)模。谷歌的 T5-11b(2019 年開放源碼)等神經網絡已經需要一個昂貴的 GPU 集群來加載和進行預測了。對這些系統(tǒng)進行微調需要更多的資源。由谷歌/ Microsoft/ OpenAI 在 2021-2022 年創(chuàng)建的更近期的模型通常非常大,以至于這些公司沒有將其作為開源發(fā)布,畢竟它們現在需要數千萬美元來創(chuàng)建,這對這些大公司來說,也算是重要的知識產權投資。

然而,即使這些最新的模型是開源的,簡單地加載這些網絡來進行預測也需要消耗更多的資源,很多初創(chuàng)公司和學術研究人員都無法輕易獲取。例如,OpenAI 的 GPT-3 僅僅是加載就需要大量的 GPU。即使使用 Amazon Web Services 等現代計算云,這也需要將數十臺 Amazon 最昂貴的 GPU 機器配置到一個高性能計算集群中。

對于那些使用基礎模型的人來說,數據集調整(Dataset alignment)也是一個挑戰(zhàn)。在大型通用數據集上進行預訓練,并不能保證網絡能夠在專有數據上執(zhí)行新任務。網絡可能非常缺乏上下文或基于其預訓練的偏向,以至于即使是微調也不容易解決這個問題。

例如,GPT-2 是自然語言處理領域中一個流行的基礎模型,最初是在 2019 年初宣布的,因此,訓練的是在該日期或之前收集的數據。想想 2019 年以來發(fā)生的一切,比如疫情。最初的 GPT-2 模型肯定知道什么是疫情,但其缺乏圍繞 COVID-19 及其變種的詳細背景,而這些背景是近年來出現的。

為了說明這一點,讓我們舉個例子,讓 GPT-2 完成“COVID-19 是……”這句話:

GPT-2(2019):“COVID-19 是一種高容量 LED 發(fā)射器,可以顯示關于電池的大小和狀態(tài)的信息?!?/em>

相比之下,2021 年發(fā)布的開源語言模型 GPT-J 完成了以下句子:

GPT-J(2021):“COVID-19 是一種新型冠狀病毒,主要影響呼吸系統(tǒng),導致具有多種臨床表現的疾病?!?/em>

差別非常大,對吧?數據集調整和訓練數據的近時性非常重要,這取決于具體用例。任何在機器學習工作中利用基礎模型的初創(chuàng)公司都應該密切關注這些類型的問題。

3. 云 API 更容易,但外包也是有代價的

OpenAI、微軟和英偉達等公司已經看到了規(guī)模上的挑戰(zhàn),并使用云 API 來應對,這些 API 支持在其托管基礎設施上運行推理和微調大規(guī)模模型。當然,每個主要的云提供商現在都提供了一套機器學習服務,在某些情況下,還專門為這些工作負載設計了定制處理器。通過將計算和基礎設施的挑戰(zhàn)轉移到更大的公司,這可以為初創(chuàng)公司、研究人員甚至個人愛好者提供一個有限的壓力緩解閥。

然而,這種方法也有其自身的風險。不能托管自己的模型意味著在訓練和推理方面都要依賴集中的實體。這可能會在構建可用于生產的機器學習應用程序時產生外部性風險,比如網絡中斷、API 的并行量或速率限制,或者僅僅是托管公司的策略更改,都可能導致重大的操作影響。此外,當敏感的標記數據集(其中一些可能被HIPAA等法規(guī)覆蓋)必須被發(fā)送到云提供商進行微調或推斷時,IP 泄露的可能性可能會讓一些人感到不舒服。

調用這些 API 帶來的 COGS(商品銷售成本)影響,也可能是那些使用云提供商滿足機器學習需求的人所關注的問題。定價模式因供應商而異,但不用說,API 調用、數據存儲和云實例的成本會隨著你的使用量而增加。如今,許多使用云 API 進行機器學習的公司可能最終會嘗試過渡到自托管或自訓練的模型,以獲得對其機器學習通道的更多控制,并消除外部化風險和成本。

圍繞使用托管模型和預訓練模型的機會和風險,導致許多公司在“試驗階段”利用云 API 來啟動產品開發(fā)。這時,公司正試圖找到適合其產品的市場。利用云 API 可以讓公司快速啟動產品,并大規(guī)模運行,而不必在昂貴的基礎設施、模型訓練或數據收集方面進行投資。來自谷歌、IBM、微軟和 OpenAI 等供應商的云機器學習服務和托管的預訓練模型,現在為數千家初創(chuàng)公司和學術研究項目提供了動力。

一旦公司確定了產品與市場的契合度,通常會過渡到自我托管或自訓練的模型,以獲得對數據、過程和知識產權的更多控制。這種轉換可能是困難的,因為公司需要能夠擴展其基礎設施以匹配模型的需求,以及管理與數據收集、注釋和存儲相關的成本。為了實現這一轉變,企業(yè)正在籌集越來越多的投資者資金。

我的創(chuàng)業(yè)公司 Hyperia 最近就進行了這樣的轉變。早期,我們在努力了解商務會議和客戶語音對話的內容時,嘗試了云 API。但最終我們還是親自進行了大規(guī)模的數據收集和模型訓練工作,以構建我們自己專有的語音和語言引擎。對于許多商業(yè)模式來說,如果要實現積極的單位經濟和市場差異化,這樣的進化是不可避免的。

4. 要有戰(zhàn)略眼光,密切關注大型 AI 實驗室

基礎模型是機器學習領域最新的顛覆性趨勢之一,但它們不會是最后一個。各大公司在持續(xù)建造越來越大的機器學習超級計算機(Facebook最新的一臺包括超過1.6萬個 GPU),研究人員也正忙于開發(fā)新技術,以減少與訓練和托管最先進的神經網絡相關的計算成本。谷歌最新的 LaMDA 模型利用了許多創(chuàng)新,能比 GPT-3 更有效地進行訓練,并且研究界正在迅速開發(fā)諸如 model distillation 和 noisy student training 等技術,以減少模型的大小。

這些創(chuàng)新也意味著創(chuàng)業(yè)公司可以繼續(xù)創(chuàng)新,但重要的是要時刻保持警惕,因為形勢在不斷變化。要記住的事情包括:

云 API 絕對可以加速公司實現產品與市場的契合,但通常也會帶來長期的問題。制定一個戰(zhàn)略性退出計劃非常重要,這樣這些 API 就不會控制你產品的命運。

基礎模型可以極大地加快機器學習的速度,降低整體訓練和數據收集成本,但要意識到這些系統(tǒng)的局限性(例如,訓練數據的近時性)。

密切關注大型企業(yè)AI實驗室(谷歌、微軟、IBM、百度、Facebook、OpenAI 等)的成果。機器學習正在以極快的速度變化,每個月都有新的技術、模型和數據集發(fā)布。這些發(fā)布往往會在意想不到的時候出現,如果你能迅速適應,會對你公司的機器學習工作產生巨大的影響。

最終,機器學習的未來及其對初創(chuàng)公司和科技公司的影響是不確定的,但有一件事是明確的:那些了解現有的東西并對其使用做出明智決定的公司,將比那些只想快速解決 AI 問題的公司處于更有利的地位。

譯者:Jane

關鍵詞: 機器學習 初創(chuàng)公司 神經網絡

相關閱讀:
熱點
圖片 圖片