神譯局是36氪旗下編譯團隊,關(guān)注科技、商業(yè)、職場、生活等領(lǐng)域,重點介紹國外的新技術(shù)、新觀點、新風向。
編者按:在當今的數(shù)字時代,職業(yè)競爭日益激烈,怎樣才能讓自己的簡歷充滿亮點,在職業(yè)競聘中脫穎而出呢?最好是要有做大數(shù)據(jù)處理的經(jīng)歷!如果我們有了這樣的經(jīng)歷,那么它就成了證明自己能夠勝任某項工作的有力證據(jù)。本文列出了7個我們在空閑時間就可以著手去做的數(shù)據(jù)科學項目。做了其中的任何一項,都會提升自己的簡歷。為了找到自己夢想的工作,立即提升自己的簡歷吧!本文來自翻譯,希望對您有幫助。
當前,數(shù)據(jù)科學是一個熱門領(lǐng)域,做數(shù)據(jù)科學有關(guān)的項目是證明自己足以勝任某一份工作的最好方法。
在這篇博文里,我們可以看到利用空閑時間就能做的7個數(shù)據(jù)科學項目,這些項目,會給我們的簡歷增加亮點,讓它在眾多簡歷中脫穎而出。
1. 回歸(Regression)
我們可以著手去做的第一個項目是以回歸為基礎(chǔ)的項目。回歸可以用來確定兩組變量之間關(guān)系的強度。
換句話說,它能夠用來計算當一個變量發(fā)生變化時,另一個變量變化了多少。回歸已成為數(shù)據(jù)研究者使用的非常重要的工具。
如果想要創(chuàng)建一個回歸項目,最好使用一個自己感興趣的數(shù)據(jù)集,并嘗試確定不同變量之間的關(guān)系。
我們能做的一些回歸項目內(nèi)容如下:
(1)確定身高和體重之間的關(guān)系。
(2)確定收入與學歷之間的關(guān)系。
(3)確定投票行為與年齡之間的關(guān)系。
(4)確定高中生成績平均績點(GPA,Grade Point Average)與高考(SAT, Scholastic Aptitude Test and Scholastic Assessment Test)成績之間的關(guān)系。
以上這些項目,每一個都可以在相對較短的時間內(nèi)創(chuàng)建完成,在創(chuàng)建過程中也會讓我們更好地理解回歸是如何運算的。
2. 分類(Classification)
我們可以著手去做的下一個項目是分類項目。分類項目將幫助我們了解如何使用機器學習算法將新的數(shù)據(jù)分類到一個預定義的類別里。
對于一名數(shù)據(jù)研究者來說,了解分類非常重要,因為在許多不同的應(yīng)用程序中,比如圖像識別和文檔標記,都會運用到分類。
我們能做的一些分類項目內(nèi)容如下:
(1)將圖像分成不同的類別。例如,我們可以使用機器學習算法將動物圖片分成哺乳動物、鳥類、爬行動物等不同的類別。
(2)將文本分成不同的類別。例如,我們可以使用機器學習算法將《紐約時報》(New York Times)上的文章分成政治類、商業(yè)類、體育類等不同的類別。
(3)將郵件分成不同的類別。例如,我們可以使用機器學習算法將電子郵件分為“垃圾郵件”或“非垃圾郵件”。
(4)將博客文章分成不同的類別。例如,我們可以使用機器學習算法將高流量網(wǎng)站上的博客文章分為“積極的類別”或“消極的類別”。
3. 聚類(Cluster)
聚類是一種沒有任何現(xiàn)成模式可供參考或依循的學習算法,它根據(jù)數(shù)據(jù)點的屬性將數(shù)據(jù)點分在同一個組里。這類項目將幫助我們理解如何在數(shù)據(jù)集中識別特定的集群,并使用基礎(chǔ)集群算法將數(shù)據(jù)中的項目分組到簇或類中,使探索大型數(shù)據(jù)集的工作變得更容易些。
對于一名數(shù)據(jù)研究者來說,了解聚類非常重要,因為它在市場營銷、欺詐檢測等各種應(yīng)用程序中都被廣泛應(yīng)用。
我們能做的一些聚類項目內(nèi)容如下:
(1)對推文按主題進行聚類。這可以用來了解關(guān)于各種話題的公眾情緒,或者跟蹤Twitter上的信息。
(2)按類型對電影或電視節(jié)目進行聚類。例如,我們可以在IMDB數(shù)據(jù)集中對電影類型進行聚類,從中發(fā)現(xiàn)與我們最喜歡的電影類型相似但不完全相同的新的電影類型。(例如,浪漫喜劇和戲?。?/p>
(3)根據(jù)產(chǎn)品類型對雜貨店里的商品進行聚類。(例如,洗衣粉和除臭劑)我們可以根據(jù)屬性(品牌、大小、顏色)的不同將各物品聚類到各個數(shù)據(jù)集中。
(4)進行有針對性的營銷活動,對顧客進行細分聚類。例如,我們可以根據(jù)客戶的購買歷史或人口信息對他們進行聚類。
4. 情緒分析(Sentiment Analysis)
情緒分析是對文本中所表達的態(tài)度和情感進行識別和量化的過程。
對于一名數(shù)據(jù)研究者來說,了解情緒分析非常重要,因為運用情緒分析可以洞察客戶反饋、產(chǎn)品評論甚至是股票市場趨勢。
我們可以著手去做的情緒分析項目內(nèi)容如下:
(1)分析客戶反饋的數(shù)據(jù),從中識別出積極情緒和消極情緒。例如,我們可以通過查看客戶對新產(chǎn)品的評論,來找出頻率最高的差評和好評。
(2)分析Twitter數(shù)據(jù),來了解情緒是如何隨著時間而變化的。例如,我們可以在幾周或幾個月的時間內(nèi)追蹤Twitter上關(guān)于某一特定話題(如總統(tǒng)選舉)的情緒。
(3)將影評分為正面的或負面的。例如,我們可以應(yīng)用文本分類算法將來自“爛番茄”(Rotten Tomatoes)的評論分為“新鮮的”(正面的)和“腐爛的”。(反面的)
(4)識別Twitter上關(guān)于自己的公司及競爭對手的情緒。例如,我們可以追蹤Yelp對某一產(chǎn)品的評論,并確定人們的情緒是如何隨時間而變化的。
5. 推薦系統(tǒng)(Recommender System)
推薦系統(tǒng)用于對產(chǎn)品和服務(wù)進行個性化推薦。
對于一名數(shù)據(jù)研究者來說,了解推薦系統(tǒng)也是很重要的,因為推薦系統(tǒng)可以幫助企業(yè)將其營銷活動個性化,提高客戶的參與度。
我們可以著手去做的一些非常實用的推薦系統(tǒng),如下:
(1)構(gòu)建電影推薦系統(tǒng)。例如,我們可以構(gòu)建一個算法,根據(jù)用戶對以前看過的電影的評分來推薦新電影。
(2)建立亞馬遜產(chǎn)品推薦系統(tǒng)。這可以通過使用諸如交替最小二乘(ALS,Alternating Least Squares)算法這樣的算法來實現(xiàn)。
(3)為公司或零售網(wǎng)站建立產(chǎn)品推薦系統(tǒng)。例如,我們可以把不同的產(chǎn)品鏈接在一起,從中推薦同一類別的產(chǎn)品。(例如,“如果你喜歡這個產(chǎn)品,你也會喜歡這些”)
(4)構(gòu)建旅游推薦系統(tǒng)。例如,我們可以使用位置數(shù)據(jù)來推薦用戶所在位置附近的娛樂活動或餐館。
6.自然語言處理(NLP,Natural language Processing)
自然語言處理是從文本數(shù)據(jù)中理解和提取信息的過程。
這一類項目將幫助我們理解自然語言處理的基礎(chǔ)知識,以及如何從文本數(shù)據(jù)中提取信息。
對于一名數(shù)據(jù)研究者來說,了解自然語言處理非常重要,因為運用自然語言處理可以分析客戶反饋、產(chǎn)品評論,甚至法律文件。
我們可以著手去做的一些自然語言處理項目內(nèi)容如下:
(1)分析客戶反饋數(shù)據(jù),了解客戶是如何用自己的話來描述產(chǎn)品或服務(wù)的。(例如,反饋中是否包含積極的或消極的關(guān)鍵詞?)
(2)從法律文件中提取信息。(如:合同要點的提?。?/p>
(3)從亞馬遜的產(chǎn)品描述中提取信息。(例如:提取對產(chǎn)品的特性和優(yōu)點的描述)
(4)從推文中提取某一公司或其競爭對手的信息。
7. 人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)
人工神經(jīng)網(wǎng)絡(luò)是一種類似于大腦神經(jīng)處理信息的機器學習算法。
它是由相互連接的神經(jīng)元組成。通過這些神經(jīng)元可以學習和識別數(shù)據(jù)模式。我們通常運用人工神經(jīng)網(wǎng)絡(luò)進行圖像識別或自然語言處理等。
人工神經(jīng)網(wǎng)絡(luò)有許多不同的類型,所以我們要選擇一個適合自己的特定數(shù)據(jù)集和用例。
我們可以著手去做的人工神經(jīng)網(wǎng)絡(luò)項目內(nèi)容如下:
(1)構(gòu)建簡單的人工神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字。
(2)訓練人工神經(jīng)網(wǎng)絡(luò)預測股票市場價格。
(3)構(gòu)建神經(jīng)網(wǎng)絡(luò),將圖像分成不同的類別。(如狗或貓)
(4)訓練神經(jīng)網(wǎng)絡(luò)識別文本文檔的語言。
立即提升自己的簡歷
感謝大家閱讀此文!如果大家需要提升自己的簡歷,可以考慮去做這7個數(shù)據(jù)科學項目中的任意一個,來讓簡歷脫穎而出。
從構(gòu)建人工神經(jīng)網(wǎng)絡(luò)或自然語言處理算法,到分析客戶反饋和產(chǎn)品評論,這些項目能夠以多種方式展示我們的大數(shù)據(jù)處理能力。
譯者:甜湯
關(guān)鍵詞: 脫穎而出 數(shù)據(jù)處理
- 發(fā)力蛋制品 勁仔食品小蛋圓圓鵪鶉蛋入圍iSEE全球創(chuàng)新品牌百強榜
- 新捷途X70S顏值與實力全面升級,將于4月29日發(fā)布預售
- 奶茶行業(yè)品牌多、競爭大 冰雪時光靠什么贏得掌聲?
- 千千惠生活全國上線“隨心退”功能,消費者可無條件隨時退款
- 杭州臨平區(qū):創(chuàng)建市場疫情防控“三色”預警分類管理機制 動態(tài)防控監(jiān)測預警
- 海南開展防止一次性不可降解塑料制品入島聯(lián)合執(zhí)法行動 對當事人立案調(diào)查
- 河北保定市場監(jiān)管局創(chuàng)新應(yīng)用信用分級分類監(jiān)管 提升監(jiān)管效能助力營商環(huán)境優(yōu)化
- 原料新鮮 用料扎實 冰雪時光穩(wěn)扎茶飲下沉市場
- 陜西省市場監(jiān)管局連續(xù)三年榮獲平安陜西建設(shè)先進集體 充分發(fā)揮市場監(jiān)管職能優(yōu)勢
- 浙江杭州:西湖食品安全風險綜合治理中心掛牌成立 健全機制規(guī)范運行為
- 湖北恩施州鶴峰縣市場監(jiān)管局開展進口水果排查專項行動 加強宣傳引導
- 寧夏青銅峽市場監(jiān)管局:擰緊節(jié)日食藥“安全閥” 確保節(jié)日期間市場安全穩(wěn)定
- 北京東城對轄區(qū)旅游客運企業(yè)開展專項聯(lián)合檢 營造和諧市場環(huán)境
- 安徽開展專項執(zhí)法查處濫用行政權(quán)力行為 共同營造公平競爭良好社會環(huán)境
- 安徽啟動2022年春茶地理標志保護專項行動 促進茶產(chǎn)業(yè)高質(zhì)量發(fā)展
- 吉林:開展知識產(chǎn)權(quán)代理行業(yè)“藍天”專項整治行動 促進知識產(chǎn)權(quán)服務(wù)業(yè)健康發(fā)展
- 福建福州:宣傳知識產(chǎn)權(quán)法律知識 全方位推進地方高質(zhì)量發(fā)展超越
- 遼寧撫順積極建設(shè)知識產(chǎn)權(quán)強市 建設(shè)知識產(chǎn)權(quán)強市為目標
- 2021年全國公共服務(wù)質(zhì)量監(jiān)測情況發(fā)布 南京以總體滿意度?排名第一
- 立案20件!安徽嚴查哄抬物價等價格違法行為 督促經(jīng)營者守法經(jīng)營
- 杭州臨平區(qū):創(chuàng)建市場疫情防控“三色”預警分類管理
- 海南開展防止一次性不可降解塑料制品入島聯(lián)合執(zhí)法行
- 河北保定市場監(jiān)管局創(chuàng)新應(yīng)用信用分級分類監(jiān)管 提
- 陜西省市場監(jiān)管局連續(xù)三年榮獲平安陜西建設(shè)先進集體
- 浙江杭州:西湖食品安全風險綜合治理中心掛牌成立
- 湖北恩施州鶴峰縣市場監(jiān)管局開展進口水果排查專項行
- 寧夏青銅峽市場監(jiān)管局:擰緊節(jié)日食藥“安全閥” 確
- 北京東城對轄區(qū)旅游客運企業(yè)開展專項聯(lián)合檢 營造和
- 安徽開展專項執(zhí)法查處濫用行政權(quán)力行為 共同營造公
- 安徽啟動2022年春茶地理標志保護專項行動 促進茶產(chǎn)
- 1 發(fā)力蛋制品 勁仔食品小蛋圓圓鵪鶉蛋入圍iSEE全球創(chuàng)
- 2 新捷途X70S顏值與實力全面升級,將于4月29日發(fā)布預售
- 3 奶茶行業(yè)品牌多、競爭大 冰雪時光靠什么贏得掌聲?
- 4 千千惠生活全國上線“隨心退”功能,消費者可無條件
- 5 杭州臨平區(qū):創(chuàng)建市場疫情防控“三色”預警分類管理
- 6 海南開展防止一次性不可降解塑料制品入島聯(lián)合執(zhí)法行
- 7 河北保定市場監(jiān)管局創(chuàng)新應(yīng)用信用分級分類監(jiān)管 提
- 8 原料新鮮 用料扎實 冰雪時光穩(wěn)扎茶飲下沉市場
- 9 陜西省市場監(jiān)管局連續(xù)三年榮獲平安陜西建設(shè)先進集體
- 10 浙江杭州:西湖食品安全風險綜合治理中心掛牌成立