国产日韩精品欧美一区_高柳の肉嫁动漫在线播放_日本韩国国产_av免费在线观看av_色涩视频_日日久视频

歡迎來(lái)到好門(mén)好窗!
2000人來(lái)審核內(nèi)容,今日頭條招的是數(shù)據(jù)勤雜工?
時(shí)間:2018-01-07 | 來(lái)源:窗博城 | 閱讀量:1247 次

    今日頭條的跨年并不是在興奮與喜悅中度過(guò)。12 月 29 日,北京市互聯(lián)網(wǎng)信息辦公室針對(duì)今日頭條“持續(xù)傳播色情低俗信息、違規(guī)提供互聯(lián)網(wǎng)新聞信息服務(wù)”等問(wèn)題,責(zé)令其“立即停止違法違規(guī)行為”。

  這是官方在拋出“算法有沒(méi)有價(jià)值觀”、“機(jī)器有沒(méi)有溫度”等系列命題之后的最后一次“強(qiáng)干預(yù)”。雖然,今日頭條的平均用戶停留時(shí)長(zhǎng)已比肩 Facebook、微信等黑洞級(jí)應(yīng)用,但其 “琳瑯滿目”的信息呈現(xiàn)與用戶的期待依然有不小的落差。如頭條所倡導(dǎo)的“算法沒(méi)有價(jià)值觀”,用腳投票的用戶也沒(méi)有價(jià)值觀,只有好惡。

  在六個(gè)“重危”頻道被整頓 24 小時(shí)并將“新時(shí)代”這一“價(jià)值觀頻道”設(shè)為默認(rèn)后,今日頭條的開(kāi)年第一件大新聞是:在天津招聘 2,000 名內(nèi)容審核編輯崗位,加強(qiáng)內(nèi)容審核。該職位要求熱愛(ài)新聞,關(guān)心時(shí)事,具有良好的政治敏感度和鑒別力,要求本科及以上學(xué)歷,黨員優(yōu)先。而此前今日頭條的審核團(tuán)隊(duì)已逾千人規(guī)模。

  其中的被動(dòng)式應(yīng)戰(zhàn)意味顯而易見(jiàn),透露出的一個(gè)重要的信息就是:包括今日頭條在內(nèi)的個(gè)性化推薦引擎的算法在性能調(diào)優(yōu)、千人千面這件事上貌似失效了。大家都看到了臟的東西,只是內(nèi)容不一樣而已。于是,我們不由得去思索一個(gè)問(wèn)題:這些個(gè)性化資訊提供商真的是黑燈工廠嗎?在“下一代搜索引擎”面前,人與機(jī)器的關(guān)系是怎樣的?

  我們先從即將為今日頭條工作的 2,000 名“內(nèi)容審核編輯”入手,猜猜看他們的工作是什么。落點(diǎn)在編輯,核心卻在審核,甚至是在數(shù)據(jù)標(biāo)注。畢竟一個(gè)號(hào)稱沒(méi)有編輯的推薦系統(tǒng)怎么可能需要 2,000 多名編輯?審核的含義就顯而易見(jiàn)了,頭條號(hào)的內(nèi)容(數(shù)據(jù))能不能分發(fā)、發(fā)出去的能不能展示、怎么展示,被迫務(wù)實(shí)的今日頭條需要緊急解決的就是減少“低俗色情”內(nèi)容了,機(jī)器不行人來(lái)湊。

  今日頭條已經(jīng)越來(lái)越離不開(kāi)繁重的人力勞動(dòng)了,這家“高舉高打、向 BAT 全面開(kāi)戰(zhàn)、作戰(zhàn)半徑越來(lái)越長(zhǎng)”的小巨頭正在通過(guò)更多的、更底層的人力勞動(dòng)來(lái)夯實(shí)地基,完善數(shù)據(jù)標(biāo)注和分類,彌補(bǔ)低水平人工智能的缺陷。當(dāng)然,需要這么做的不僅僅是今日頭條,還有整個(gè)人工智能領(lǐng)域。

  人工智能的核心是機(jī)器學(xué)習(xí),它涉及了算法、統(tǒng)計(jì)、概率等多學(xué)科,那些看似簡(jiǎn)單甚至笨拙的語(yǔ)音反饋、圖像搜索和個(gè)性化內(nèi)容推薦,都基于無(wú)數(shù)繁復(fù)單調(diào)的人力勞動(dòng)。就像蘋(píng)果公司帶動(dòng)的智能手機(jī)產(chǎn)業(yè)鏈一樣,人工智能這一輝煌的朝陽(yáng)產(chǎn)業(yè),依然離不開(kāi)三四線城市的勞動(dòng)力、在校大學(xué)生以及大量社會(huì)兼職人員的工作,今日頭條此次在天津釋放的 2,000 個(gè)審核編輯名額正是瞄準(zhǔn)了這一群體。

  人力勞動(dòng)與人工智能的關(guān)系最直觀的體現(xiàn)正是由今日頭條所掀起的新聞客戶端“個(gè)性化推薦革命”了,在此類產(chǎn)品中,內(nèi)容的多級(jí)分類、垃圾內(nèi)容的清洗及過(guò)濾、用戶行為畫(huà)像都涉及復(fù)雜的機(jī)器學(xué)習(xí),而需要人工標(biāo)注數(shù)據(jù)去喂養(yǎng)機(jī)器的可以是分詞、關(guān)鍵詞,也可以是文章分類、文章中圖文的比例。如果將一整套算法比作一個(gè)健全的有機(jī)系統(tǒng),每一個(gè)維度的數(shù)據(jù)都是構(gòu)建這套系統(tǒng)的神經(jīng)元,它們或多或少會(huì)影響用戶展現(xiàn)層,可謂是差之毫厘謬以千里。

  那么,那些你喜歡的、你不喜歡的內(nèi)容是如何從數(shù)百萬(wàn)級(jí)的內(nèi)容庫(kù)里被選擇推薦到你的信息流里?我通過(guò)與幾位個(gè)性化算法工程師、今日頭條的前產(chǎn)品經(jīng)理和從事這個(gè)“內(nèi)容審核編輯”工作運(yùn)營(yíng)人員聊天,了解到了密集的人力勞動(dòng)是如何喂養(yǎng)機(jī)器智能的。

  分詞標(biāo)注:理解你的興趣之前,先理解漢字的意義

  眾所周知,英文是以詞為單位的,詞和詞之間靠空格隔開(kāi),而中文是以漢字為單位,把中文的漢字序列切分成有意義的詞,就是中文分詞。中文自然語(yǔ)言處理(Natural Language Processing)中,分詞是必不可少的一個(gè)過(guò)程。

  個(gè)性化推薦引擎,最重要的就是把有意義的信息前置,其核心是相關(guān)度排序。分詞準(zhǔn)確與否直接影響排序,影響你的信息流列表里是否都是你個(gè)人感興趣的東西。

  即便是有了成熟的分詞算法,也很難解決中文分詞遇到的困境。因?yàn)闈h字本身的多義性和模糊性使得在機(jī)器看來(lái)詞和句充滿了歧義。而且一個(gè)健康的語(yǔ)言系統(tǒng)也是在不斷進(jìn)化中,每天都會(huì)有新的詞匯產(chǎn)生。就歧義而言,同樣的一句話,可能有兩種或者更多的切分方法。比如,乒乓球拍賣(mài)完了,切分成“乒乓球拍/賣(mài)完了”和“乒乓球/拍賣(mài)完了”就是完全不同的意思。

  第二個(gè)需要人力不斷去跟蹤的就是漢字的“新詞”,術(shù)語(yǔ)是“未登錄詞”,即沒(méi)有被收錄在分詞詞表中但必須切分出來(lái)的詞。在這部分最直觀的產(chǎn)品體驗(yàn)就是輸入法的云詞庫(kù),每天都會(huì)有運(yùn)營(yíng)人員統(tǒng)計(jì)新詞上傳云端。而在個(gè)性化推薦系統(tǒng)里,新詞的識(shí)別也要以人力為主,輔助機(jī)器去不斷添加并處理。

圖 | 機(jī)器學(xué)習(xí)在技術(shù)層面的應(yīng)用圖 | 機(jī)器學(xué)習(xí)在技術(shù)層面的應(yīng)用

  處理完有意義的詞,還需要排除無(wú)意義的詞,這就是所謂的停用詞庫(kù)(Stop Words),略相當(dāng)于過(guò)濾詞(Filter Words),術(shù)語(yǔ)為“非檢索用字”,因?yàn)橐?jié)省存儲(chǔ)空間和提高搜索效率,以及出于法律及政治的訴求,搜索引擎需要自動(dòng)忽略的一些過(guò)濾詞也需要人工輔助機(jī)器標(biāo)注。

  停用詞包括兩部分,一種是使用十分廣泛甚至過(guò)于頻繁的詞,英文里如“I”、“is”、“the”,中文如“我”、“的”、“了”,幾乎在每個(gè)文檔里都有體現(xiàn),但很難保證搜索的準(zhǔn)確性及推薦無(wú)意義的結(jié)果,也需要過(guò)濾。

  然而,需要人工干預(yù)的停用詞更需要在不同場(chǎng)景下的詞庫(kù)里去維護(hù),比如在體育新聞中,“比賽”這個(gè)詞的價(jià)值就不是很大;在娛樂(lè)新聞中,“演員”就不是一個(gè)特別有意義的詞。但是這兩個(gè)詞如果放在科技新聞里就不一樣了。

  作為理解文本最核心的工作,分詞標(biāo)注其實(shí)是自然語(yǔ)言處理的一部分,而離開(kāi)了大量的基礎(chǔ)的人力工作,機(jī)器對(duì)文本的處理其實(shí)就是一句空話,除非你有一個(gè)現(xiàn)成的、龐大的、動(dòng)態(tài)的數(shù)據(jù)庫(kù)。而在許多公司,自然語(yǔ)言處理部分已經(jīng)完全外包了,靠售賣(mài)成型的數(shù)據(jù)庫(kù)已經(jīng)是一門(mén)生意了。

  分類標(biāo)注:你需要忘記的文章分類,恰恰是機(jī)器需要記住的

  分詞停詞的標(biāo)注牽扯到算法模型里對(duì)文本的識(shí)別,文本本身也需要通過(guò)建立訓(xùn)練集來(lái)輔助機(jī)器學(xué)習(xí)。在一個(gè)完善的個(gè)性化推薦系統(tǒng)里,文章分類樹(shù)的構(gòu)建也相當(dāng)有必要。

  文章分類是最簡(jiǎn)單的個(gè)性化步驟,在大而全的門(mén)戶時(shí)代,會(huì)通過(guò)頁(yè)面的版塊來(lái)區(qū)分你的閱讀興趣,現(xiàn)在的個(gè)性化產(chǎn)品雖然也排設(shè)了各分類頻道,但其主要功用是滿足一些垂直喜好。個(gè)性化水平夠高的話,以興趣推薦為主的首頁(yè)流量會(huì)是頻道的數(shù)倍不止。

  個(gè)性化資訊產(chǎn)品的一個(gè)優(yōu)勢(shì)在于,從各渠道爬蟲(chóng)抓取過(guò)來(lái)的內(nèi)容天然自帶分類,比如抓了新浪科技頻道的內(nèi)容,那么這些文章自然帶“科技”分類標(biāo)簽。此類文章會(huì)出現(xiàn)在正確的分類頻道。然而,這是一種粗顆粒度的“個(gè)性化”,完全談不上興趣推薦,且抓取渠道的多樣并不能保證所有文章都自帶標(biāo)簽,從門(mén)戶到個(gè)性化推薦,最重要的特征就是興趣顆粒度的細(xì)化。

  以前,用戶喜歡看科技類內(nèi)容,現(xiàn)在,這個(gè)興趣溶解為 iPhoneX、共享單車等標(biāo)簽。因此,一個(gè)合理的文章分類是包含至少三層的分類標(biāo)注過(guò)程。即一級(jí)分類(科技、娛樂(lè)、軍事等標(biāo)簽);二級(jí)分類(一級(jí)分類的分拆及內(nèi)容源分類);三級(jí)分類(一個(gè)龐大的標(biāo)簽庫(kù),一篇文章里最關(guān)鍵的主題詞等)。

  以某手機(jī)瀏覽器在做的分類工程為例,機(jī)器學(xué)習(xí)想要實(shí)現(xiàn)分類準(zhǔn)確性,需要通過(guò)百萬(wàn)級(jí)文章的訓(xùn)練數(shù)據(jù)去習(xí)得。負(fù)責(zé)人楊某告訴我,首先,需要建立一個(gè) 150 萬(wàn)篇的數(shù)據(jù)庫(kù),然后由機(jī)器進(jìn)行原始分類,30 多個(gè)人耗時(shí)一個(gè)月進(jìn)行校審,正確的分類繼續(xù)標(biāo)注二三級(jí)分類,錯(cuò)誤的要進(jìn)行糾正重新進(jìn)行分類,而只要準(zhǔn)確率能達(dá)到 90%,就是工程師可以接受的水平。

  在最終實(shí)現(xiàn)的完整分類樹(shù)里,一共有 27 個(gè)一級(jí)分類,300 多個(gè)二級(jí)分類,將近 10 萬(wàn)多個(gè)標(biāo)簽。以一點(diǎn)資訊為例,用戶訂閱的關(guān)鍵詞或者分類,正是基于這種龐雜的分類標(biāo)注所形成的文章與關(guān)鍵詞之間的映射。

圖 | 文章的三級(jí)分類圖 | 文章的三級(jí)分類

  人工干預(yù):讓你困擾的推薦興趣列表,是一堆人設(shè)計(jì)的邏輯重疊

  如果在你的理解中,機(jī)器學(xué)習(xí)是根據(jù)一些粗笨的規(guī)則和你的興趣關(guān)鍵詞為你生成興趣推薦列表的話,那就大錯(cuò)特錯(cuò)了。你可以打開(kāi)你的推薦頁(yè)面往下刷一刷,這里邊至少包含了多種關(guān)聯(lián)性推薦的內(nèi)容。

  有你關(guān)注的了賬號(hào)、有被強(qiáng)制展示給你看的時(shí)政新聞、有今天最火的短視頻、有運(yùn)營(yíng)編輯認(rèn)為今日不可錯(cuò)過(guò)的 100 件大事。當(dāng)然,現(xiàn)在可能會(huì)有2,000名審核編輯想讓你或不想讓你看到的東西。客觀而言,現(xiàn)在呈現(xiàn)在你面前的信息流其實(shí)很難做到完全的個(gè)性化,這個(gè)看似簡(jiǎn)單讓人“震驚、轉(zhuǎn)瘋了”的列表里重疊了太多的運(yùn)營(yíng)邏輯。

  算法模型的核心是預(yù)判+反饋,對(duì)一個(gè)新用戶而言,你喜歡看什么東西?機(jī)器需要預(yù)測(cè),即使對(duì)今日頭條而言,抓取其社交關(guān)系鏈給一個(gè)初始化列表,但這些是否能真正體現(xiàn)你的閱讀趣味就是另外一說(shuō)了。因此,在這個(gè)初始列表里,有一個(gè)候選池的概念,以“全局最熱”、“用戶所在城市最熱”、“用戶最關(guān)注類別最熱”、“用戶最關(guān)注關(guān)鍵詞最熱”組合構(gòu)成信息列表。

  看似很關(guān)心用戶,但是站在“個(gè)性化用戶”的角度而言,這種體貼又有什么用呢?人工可以干預(yù)的不像以前頁(yè)面運(yùn)營(yíng)的單條維護(hù)更新,而是變成一個(gè)“文章庫(kù)”。因此,在一個(gè)主模型的基礎(chǔ)上,還需要引入其它次要邏輯,以更好地“模擬”用戶的興趣列表。

  在號(hào)稱沒(méi)有編輯部的個(gè)性化資訊產(chǎn)品部門(mén)里,依然存在大量的垂直領(lǐng)域的編輯,他們的主要職責(zé)就是設(shè)計(jì)人工干預(yù)準(zhǔn)則、干預(yù)個(gè)性化排序。以鳳凰新聞客戶端為例,依然存在著至少 30-50 人的編輯運(yùn)營(yíng)團(tuán)隊(duì)。

  目前,編輯精選+個(gè)性化推薦的組合首頁(yè)列表成為主流,這一肇始于搜狐新聞客戶端的內(nèi)容推薦方法成為門(mén)戶新聞客戶端的選擇。鳳凰新聞客戶端運(yùn)營(yíng)負(fù)責(zé)人告訴我,編輯每天會(huì)將熱門(mén)、時(shí)效、有格調(diào)的新聞放在一個(gè)動(dòng)態(tài)的精品內(nèi)容庫(kù)里,少則幾十條、多則一百條,以平衡新聞的時(shí)效性與個(gè)性化內(nèi)容的可讀性。

  人工干預(yù)可以保障信息流的健康度和豐富度,對(duì)于提升用戶體驗(yàn)有非常重要的作用,一定程度也能調(diào)整模型的方向。人工干預(yù)的規(guī)則也會(huì)以 A/B 測(cè)試的方式驗(yàn)證規(guī)則的數(shù)據(jù)效果,但唯獨(dú)不能保證的是——這是不是你想要的個(gè)性化?

  垃圾處理:一個(gè)勞累且持久的系統(tǒng)工程

  這正是即將入職今日頭條的 2,000 名審核編輯需要做的事情,在未來(lái)的一段時(shí)間內(nèi),他們有可能將看遍今日頭條上所有內(nèi)容空洞、價(jià)值低的垃圾內(nèi)容。

  標(biāo)題黨、情色低俗、廣告營(yíng)銷類的帖子在個(gè)性化資訊產(chǎn)品里并不少見(jiàn),而在被官方媒體及用戶詬病的背后,則是平臺(tái)不遺余力地反垃圾工作。如果將大面積自媒體化后的資訊產(chǎn)品比作淘寶的話,那低質(zhì)量?jī)?nèi)容就像是假貨,雙方的博弈勢(shì)必是一場(chǎng)持久戰(zhàn)。前今日頭條算法產(chǎn)品經(jīng)理透露,事實(shí)上,大多數(shù)資訊產(chǎn)品里的垃圾內(nèi)容含量都在 30% 以上。

  反垃圾系統(tǒng)里邊有兩種邏輯,一種是過(guò)濾;一種是通過(guò)機(jī)器學(xué)習(xí)識(shí)別和過(guò)濾垃圾內(nèi)容來(lái)輔助推薦系統(tǒng)。前者見(jiàn)效快,但工作量大,且不利于推薦系統(tǒng)的學(xué)習(xí)成長(zhǎng)。就像那些敏感的家長(zhǎng)對(duì)待性教育的態(tài)度,其隱患在于這種歸類與識(shí)別在機(jī)器的觀念和經(jīng)驗(yàn)里是徹底缺失的。在某手機(jī)瀏覽器的信息流部門(mén)里,僅審核工作人員就有 20 多個(gè),需要 7*24 小時(shí)工作,人均日審核量就超過(guò) 1,000 篇。這個(gè)審核數(shù)據(jù)量剛好和今日頭條對(duì)審核編輯的職位描述一致。

圖 | 通過(guò)屏蔽來(lái)過(guò)濾垃圾內(nèi)容的人工操作后臺(tái)圖 | 通過(guò)屏蔽來(lái)過(guò)濾垃圾內(nèi)容的人工操作后臺(tái)

  過(guò)濾的做法簡(jiǎn)單粗暴,通過(guò)標(biāo)題/正文的關(guān)鍵詞或賬號(hào)來(lái)屏蔽。然而,事實(shí)上,直接在標(biāo)題中踩中違禁詞的概率實(shí)在太小,而在正文里踩中的概率卻很大。且詞匯本身則在不同語(yǔ)境下發(fā)揮不同作用,誤殺的概率也大到可怕。

  通過(guò)機(jī)器學(xué)習(xí)識(shí)別和過(guò)濾垃圾內(nèi)容更有利于推薦系統(tǒng)的良性成長(zhǎng),對(duì)垃圾內(nèi)容進(jìn)行文章特征、垃圾類型和發(fā)布源等人工標(biāo)注,再結(jié)合上述三個(gè)維度的標(biāo)注,將這些數(shù)據(jù)提交給機(jī)器進(jìn)行學(xué)習(xí),進(jìn)而實(shí)現(xiàn)對(duì)垃圾內(nèi)容的機(jī)器審核,我想,這應(yīng)該是數(shù)千人規(guī)模的審核團(tuán)隊(duì)需要實(shí)現(xiàn)的終極目標(biāo)。不過(guò)因?yàn)楣て谶^(guò)長(zhǎng)、監(jiān)管風(fēng)險(xiǎn)和市場(chǎng)窗口,等你的機(jī)器學(xué)習(xí)趨近成熟的時(shí)候,早已沒(méi)有了用武之地,這正是今日頭條所面臨的尷尬局面。

  某 Android 桌面信息流算法工程師告訴我,反垃圾系統(tǒng)的關(guān)鍵在于給新文章打上是否是垃圾的標(biāo)記,這符合機(jī)器學(xué)習(xí)分類問(wèn)題的定義。例如,現(xiàn)在已經(jīng)有了 10,000 篇垃圾文章,再找到同等規(guī)模的非垃圾文章,挑選機(jī)器學(xué)習(xí)模型訓(xùn)練一個(gè)分類器,這個(gè)問(wèn)題就迎刃而解了。針對(duì)反垃圾系統(tǒng),機(jī)器學(xué)習(xí)領(lǐng)域常使用準(zhǔn)確率和召回率來(lái)判斷系統(tǒng)的優(yōu)劣。

  準(zhǔn)確率 = 系統(tǒng)預(yù)判垃圾文章中真正垃圾的文章數(shù)目 / 系統(tǒng)判定垃圾文章數(shù)目

  召回率 = 系統(tǒng)預(yù)判垃圾文章中真正垃圾的文章數(shù)目 / 真正垃圾的文章總數(shù)

  比如系統(tǒng)里總共有 1,000 篇文章,反垃圾系統(tǒng)判定其中 100 篇文章為垃圾,在這 100 篇被判定垃圾的文章中有 60 篇真的是垃圾文章,此外還有 40 篇垃圾文章被標(biāo)記為非垃圾。這樣準(zhǔn)確率就是 60/100=60%,而召回率也是 60/100=60%。準(zhǔn)確率能夠幫助判斷標(biāo)記垃圾文章的性能,而召回率反映了系統(tǒng)能夠處理的垃圾文章覆蓋范圍。這兩個(gè)概念也被用在數(shù)據(jù)標(biāo)注、分類標(biāo)注中用以判斷算法性能。

  反垃圾系統(tǒng)需要在準(zhǔn)確率和召回率之間進(jìn)行平衡,如果我們把所有文章都標(biāo)記為垃圾,那么召回率就是 100%,而準(zhǔn)確率就會(huì)變成 10%,這樣的話用戶就看不到任何文章了,顯然這是不合理的。因此,機(jī)器學(xué)習(xí)分類算法需要做的事情就是引入通過(guò)人工標(biāo)注的更細(xì)致的文章特征維度,包括增加文章的特征、多模型融合、加大訓(xùn)練數(shù)據(jù)量等,以提升準(zhǔn)確性。

  在優(yōu)化了特征與模型方面的工作,將準(zhǔn)確率和召回率最終都提升到 85% 左右,這是一個(gè)可以接受的及格數(shù)值,不過(guò)這意味著依然有 15% 的誤差內(nèi)容需要人工去干預(yù),并需要繼續(xù)加強(qiáng)對(duì)機(jī)器的訓(xùn)練。

  總之,搭建一套完整的標(biāo)注系統(tǒng),并對(duì)數(shù)據(jù)進(jìn)行持續(xù)維護(hù),這僅僅是個(gè)性化推薦需要完成的原始積累,而將這四部分協(xié)同操作并運(yùn)用在算法模型中,也僅能得到一個(gè)及格的個(gè)性化信息流產(chǎn)品。在客戶端展現(xiàn)的另外一維,還不能缺少對(duì)用戶行為數(shù)據(jù)的理解及清晰畫(huà)像,要實(shí)現(xiàn)這種匹配關(guān)系還有更長(zhǎng)的路要走。

  前幾年,國(guó)內(nèi)聚焦于今日頭條模式的個(gè)性化推薦系統(tǒng)有大小公司超過(guò) 30 家,其展現(xiàn)形式包括原生 APP、信息流 SDK、手機(jī)瀏覽器,還有那些企圖刻意拉長(zhǎng)用戶停留時(shí)長(zhǎng)的產(chǎn)品。這種模式很快被復(fù)制到了土耳其、阿根廷、巴西、印尼等國(guó)家。然而,以減少數(shù)據(jù)標(biāo)注維度、降低推薦系統(tǒng)性能和犧牲用戶體驗(yàn)為代價(jià)的個(gè)性化資訊產(chǎn)品,都不可避免地走向了品牌缺失、產(chǎn)品低留存甚至是監(jiān)管關(guān)停。

  可喜的是,有不少人從專業(yè)的角度發(fā)現(xiàn)了商機(jī)。去年 8 月,提供數(shù)據(jù)標(biāo)注眾包服務(wù)的“星塵數(shù)據(jù)”獲得天使輪投資,硅谷出身的創(chuàng)始團(tuán)隊(duì)正是瞄準(zhǔn)了這個(gè)行業(yè)的積累不完善、水平層次不齊。此前,成立較早的“數(shù)據(jù)堂”已成功掛牌新三板,此外還有愛(ài)數(shù)智慧、泛涵科技、龍貓數(shù)據(jù)、丁火智能等都已獲得融資并著手構(gòu)建自己的數(shù)據(jù)標(biāo)注平臺(tái)。從產(chǎn)業(yè)的角度來(lái)看,缺失的一環(huán)正在補(bǔ)齊。

  機(jī)器算法通過(guò)廉價(jià)勞動(dòng)力的單個(gè)無(wú)意義成果的累積實(shí)現(xiàn)質(zhì)的飛躍,這座智能、精巧的大廈的建設(shè)工作從以前高素質(zhì)新聞從業(yè)者手中遞交給了簡(jiǎn)單培訓(xùn)即可上崗的重復(fù)工作者。對(duì)高級(jí)人工智能及深度學(xué)習(xí)而言,讓一些人在機(jī)器面前無(wú)所適從、找不到工作價(jià)值是我們邁向人工智能時(shí)代必然要經(jīng)歷的陣痛。

  所以,當(dāng)你在招聘網(wǎng)站上看到“數(shù)據(jù)運(yùn)營(yíng)”或者“內(nèi)容審核”的崗位,就需要注意了,這多半是一份看不到頭并很難在短時(shí)間內(nèi)體現(xiàn)個(gè)人價(jià)值的工作,因?yàn)槟愕慕巧菣C(jī)器的訓(xùn)練師。對(duì)龐雜的算法而言,這些工作是不可或缺的,并且是最基本、最有價(jià)值的一部分。但是放眼激烈的商業(yè)環(huán)境,能否在數(shù)據(jù)標(biāo)注這件事上保持足夠的耐心才能最終決定所謂的“個(gè)性化”產(chǎn)品走多遠(yuǎn)。

免責(zé)聲明:凡注明來(lái)源本網(wǎng)的所有作品,均為本網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,歡迎轉(zhuǎn)載,注明出處。非本網(wǎng)作品均來(lái)自互聯(lián)網(wǎng),轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),如轉(zhuǎn)載涉及版權(quán)等問(wèn)題,請(qǐng)聯(lián)系我們,我們將及時(shí)改正或刪除,謝謝!
主站蜘蛛池模板: 嗯嗯嗯亚洲精品国产精品一区 | 免费涩涩 | 91久久奴性调教 | 老头把我添高潮了A片故视频 | 久草片免费福利资源 | 艳妇乳肉豪妇荡乳流白浆 | 奇米四色7777中文字幕 | 欧美好骚综合网 | 日韩免费特黄一二三区 | 看黄A大片爽爽影院免费无码 | 国产精品久久久久久久久无码日本蜜乳 | 国产精品嫩草影院com | 俄罗斯a级毛片 | YY6080久久亚洲精品 | www.尤物 | 色婷婷国产精品久久包臀 | 无码少妇一区二区三区芒果 | 国产午夜精品理论片a级在线观看 | 女人被强╳到高潮喷水在线观看 | 北条麻妃在线看 | 日韩专砖图片 | 色屁屁一区| 999亚洲欲妇 | 一级黄色在线视频 | 丝袜美腿国产综合久久 | 国产精品久久久久久久久久久威 | 欧美老熟妇506070乱子 | 麻豆影院在线播放 | 被男人吃奶很爽的毛片 | 亚洲综合一区二区三区不卡 | 亚洲美女网站 | 日韩美女一级视频 | av天堂中文字幕在线播放 | 色老久久 | 呻吟求饶的办公室人妻 | 亚洲一区二区三区在线观看视频 | 九色综合国产一区二区三区 | 扣逼喷水视频 | 肉感饱满中年熟妇日本 | 亚洲第一综合区 | 啦啦啦免费视频播放 |