1在AI系統能夠學習之前,必須有人標記提供給它的數據,這項工作對自動駕駛汽車、監控系統和自動化醫療等AI的創造至關重要。
2大型科技公司對注釋數據的工作往往保持沉默,因為他們面臨著隱私維權人士對他們存儲并與外部企業共享大量個人數據的擔憂加劇。
3數以萬計的上班族和通常在家里工作的獨立承包商,正通過AmazonMechanicalTurk等眾包服務對數據進行注釋和貼標簽,每個標簽只能賺幾分錢。
騰訊科技訊8月17日消息,據外媒報道,在距離孟加拉灣約60公里遠的印度布巴內斯瓦爾市中心,納米塔·普拉丹(NamitaPradhan)坐在辦公桌前,盯著世界另一端某家醫院錄制的視頻。
視頻顯示了某人結腸的內部,普拉丹正通過視頻尋找息肉,即大腸中可能導致癌癥的小腫塊,看起來有點兒像黏糊糊的痘痘。當她找到息肉時,會用她的電腦鼠標和鍵盤標記,在這個小凸起周圍畫個數字圓圈。普拉丹沒有接受過專門的醫學培訓,但她正在幫助訓練一個人工智能(AI)系統,這個系統最終可以完成醫生的工作。
在一座小型辦公樓的四樓,數十名印度年輕男女在辦公桌前認真工作,普拉丹就是其中之一。他們接受的訓練是對各種數字圖像進行注釋,從街道場景中的停車標志和行人,再到衛星照片中的工廠和油罐車,他們都能精確定位。
科技行業的大多數人都會告訴你,AI是他們行業的未來,這項技術正在快速發展,這要歸功于一種叫做機器學習的東西。但科技公司的高管很少討論其創建過程中的勞動密集型努力。AI正在向人類學習,而且是向很多人類學習。
但在AI系統能夠學習之前,必須有人標記提供給它的數據。例如,人類必須精確定位息肉。這項工作對自動駕駛汽車、監控系統和自動化醫療等AI的創造至關重要。然而,科技公司對這項工作保持沉默,因為他們面臨著隱私維權人士對他們存儲并與外部企業共享大量個人數據的擔憂加劇。
今年早些時候,資深科技編輯凱德·梅茨(CadeMetz)設法幫我們了解下AI培訓的幕后場景,這是硅谷奇才們很少會同意的。梅茨在印度進行了一次漫步旅行,走訪了五個辦公室,那里的人們正在從事培訓AI系統所需的、幾乎沒有終點的重復工作,所有這些工作都由名為iMerit的公司運營。
有像普拉丹女士這樣的腸道測量師和區分咳嗽好壞的專家,有語言專家和識別街景標識的專業人士。什么是行人?那是雙黃線還是虛白線?將來,機器人汽車需要知道其中的區別。
圖2:iMerit員工必須為他們貼標簽的工作學習不同尋常的技能,比如在人體腸道上發現有問題的息肉
梅茨所看到的場景看起來不太像我們想象中的未來,或者至少是你可能想象的自動化未來。辦公室可以是呼叫中心或支付處理中心,其中一個位于加爾各答西部低收入居民區中央的一棟舊式公寓樓中,那里擠滿了行人、汽車三輪車和街頭小販。在他參觀過的布巴內斯瓦爾以及印度、尼泊爾、菲律賓、東非和美國的其他城市,數以萬計的上班族都在致力于訓練機器。
還有數萬名工人,也就是通常在家里工作的獨立承包商,也通過AmazonMechanicalTurk等眾包服務對數據進行注釋,這種服務讓任何人都可以將數字任務分配給美國和其他國家的獨立工人,工人們每個標簽能掙幾分錢。
總部設在印度的iMerit,為科技和汽車行業的許多大牌公司貼數據標簽。該公司以保密協議為由,拒絕公開這些客戶的名字。但該公司最近透露,其在全球九個辦事處的2000多名員工正在為亞馬遜的在線數據標簽服務Sage Maker Ground Truth做出貢獻。之前,它還將微軟列為客戶。
圖3:在印度加爾各答Metiabruz社區的iMerit辦公室展示的藝術品
可以肯定的是,AI將來可能會掏空就業市場。但就目前而言,它正在創造收入相對較低的工作崗位。根據研究公司Cognilytica的數據,2018年數據標簽市場價值超過5億美元,到2023年將達到12億美元。研究表明,這類工作占建設AI技術所花費時間的80%。
這項工作是剝削性的嗎?這取決于你住在哪里,你在做什么。在印度,這是通往中產階級的門票。在美國新奧爾良,這是一份體面的工作。但對于作為獨立承包商的人來說,這往往是一條“不歸路”。
有些技能是必須學習的,比如在視頻或醫學掃描中發現疾病的跡象,或者在汽車或樹的圖像周圍畫數字套索時保持手部穩定。在某些情況下,當任務涉及醫療視頻、色情或暴力圖像時,工作就會變得可怕。
克里斯蒂·米蘭德(Kristy Milland)說:“當你第一次看到這些東西時,會深深地感到不安。你不想回去工作,你可能不會回去工作了。”米蘭德花了數年時間在Amazon Mechanical Turk上做數據標簽工作,現在已經成為代表這項服務的工人的勞工維權人士。她稱:“對于我們這些負擔不起失去工作的人來說,你就只能繼續忍受。”
在去印度之前,梅茨曾試著在眾包服務上給圖片貼上標簽,在耐克標識周圍畫數字框,并識別“工作不安全”的圖片。他當時顯得非常笨拙。在開始工作之前,他必須通過測試,但卻接連失敗了三次。給圖像貼上標簽以便人們可以立即在網站上搜索零售商品,更不用說花時間將裸體女性和性玩具的粗糙圖像識別為“NSFW”,并不完全是鼓舞人心的。
AI研究人員希望他們能夠建立能從少量數據中學習的系統。但在可預見的未來,人類的勞動依然是必不可少的。微軟的人類學家瑪麗·格雷(MaryGray)說:“這是個隱藏在技術之下、不斷擴張的世界,很難將人類排除在循環之外。”
寺廟之城
圖4:員工離開印度布巴內斯瓦爾的iMerit辦公室,這家私人公司是由Radha和DipakBasu創立的,他們都在硅谷工作過很長時間
布巴內斯瓦爾又被稱為“寺廟之城”。古老的印度教圣地矗立在城市西南端的路邊市場上,包括可以追溯到公元10世紀的巨型石塔。在市中心,許多街道沒有鋪設路面。奶牛和野狗在輕便摩托車、小汽車和卡車之間徘徊。
這座城市擁有83萬人口,也是一個快速增長的在線勞動力中心。從寺廟出發大約15分鐘的車程,在市中心附近一條鋪好路面的路上,一座白色的四層建筑坐落在一堵石墻后面。里面有三個房間,房間里擺滿了長長的桌子,每個都有自己的寬屏電腦顯示屏。這就是普拉丹女士給視頻貼標簽的地方。
24歲的普拉丹在城外長大,并從當地一所大學獲得了學位,在接受iMerit的工作之前,她在那里學習生物學和其他學科。這是她哥哥推薦的工作,他本人此前已經在公司工作了。普拉丹在工作日時住在她辦公室附近的一家旅社,每個周末都乘公交車回家。
梅茨曾在今年1月份參觀了普拉丹的辦公室。許多身穿印度傳統服裝、帶著長長金耳環的女士坐在長長的桌子旁,普拉丹女士穿著一件綠色的長袖襯衫、黑色的褲子和白色的系帶鞋,為美國的一位客戶注釋視頻。在通常每天8小時的工作中,這位害羞的女士觀看了十幾個結腸鏡檢查視頻,不斷地倒轉視頻,以便更近距離地查看各個幀。
每隔一段時間,普拉丹就會找到她想要的東西,她會用數字“包圍盒”套住它。她畫了數百個這樣的包圍盒,給息肉和其他疾病征兆貼上標簽,比如血塊和炎癥。
圖5:普拉丹(右二)在布巴內斯瓦爾的iMerit辦公室和同事們一起工作
普拉丹的客戶是美國的一家公司,iMerit不允許透露它的名字,它最終將把普拉丹的工作輸入給AI系統,這樣它就可以學會自己識別醫療狀況。結腸鏡的主人不一定知道視頻的存在,普拉丹女士也不知道這些視頻是從哪里來的,iMerit也是如此。
普拉丹女士在與一位非實習醫生進行為期七天的在線視頻通話時學會了這項任務。這位醫生住在美國加州奧克蘭,幫助培訓許多iMerit辦公室的工作人員。但是有些人質疑,是否應該由經驗豐富的醫生和醫學生自己做這類標簽。
威爾·康奈爾醫學(Weill Cornell Medicine)和紐約長老會醫院(New York-Presbyterian)的放射學家、初創公司MD。ai。的聯合創始人喬治·施(GeorgeShih)博士說,這項工作需要“有醫學背景,并具備解剖學和病理學相關知識的人”。MD。ai。幫助企業為醫療保健構建AI。
在聊起普拉丹的工作時,她說那“很有趣”,但是很累。至于視頻的圖形化本質?她承認:“一開始很惡心,但后來你就習慣了。”
普拉丹標注的圖像很可怕,但沒有iMerit處理的其他圖像那么可怕。他們的客戶也在建立AI,可以識別和刪除社交網絡和其他在線服務上不想要的圖片。這意味著需要標注色情、暴力和其他有害的圖像。
這項工作可能會讓從業者感到非常不安,iMerit試圖限制他們審查這類內容的數量。在AI初創企業Clarifai負責數據注釋工作的利茲·奧沙利文(LizO‘Sullivan)表示,色情和暴力與更無害的圖片混合在一起,那些貼上可怕標簽的圖片被隔離在不同的房間里,以保護其他員工。奧沙利文曾與iMerit在此類項目上密切合作。
奧沙利文說,其他標簽公司將讓員工對這些圖片進行無限數量的注釋。她指出:“如果這會導致創傷后應激障礙或者更糟情況,我不會感到驚訝。在道德上不受譴責的公司根本不愿意承擔這樣的責任。你必須用其他工作來填充色情和暴力,這樣工人就不必看色情和斬首等內容。”
iMerit在一份聲明中表示,它不會強迫員工查看色情或其他攻擊性內容,只有在有助于改善監控系統的情況下才會承擔這項工作。據一位公司高管透露,普拉丹和其他貼標員每月的收入在150美元到200美元之間,同時可為iMerit帶來800美元到1000美元的收入。
按照美國的標準,普拉丹的工資低得不像話。但對于她和這些辦公室的其他許多人來說,這大約與數據錄入工作的平均工資差不多。盡管工作單調乏味,但它能幫助付得起公寓的費用。
圖6:iMerit員工普拉森吉特·拜迪亞與妻子派克在西孟加拉邦工作,他很滿意當前的工作
普拉森吉特·拜迪亞(Prasenjit Baidya)在距離印度東海岸、西孟加拉邦最大城市加爾各答約50公里的農場長大。他的父母和大家庭仍然住在他兒時的家中,那是19世紀初建造的磚房。他們在周圍的田里種植水稻和向日葵,并在鋪滿屋頂的地毯上烘干種子。
他是家里第一個接受大學教育的人,其中包括電腦課。但是學校沒有教他那么多知識,教室里平均25個學生才能分配到一臺電腦。大學畢業后,他自學了計算機技能,當時他報名參加了名為Anudip的非營利組織舉辦的培訓課程。這是一位朋友推薦的,每月的費用相當于5美元。
Anudip在印度各地開設英語和計算機課程,每年培訓約22000人。這家機構直接將學生推薦給iMerit,它的創始人在2013年將iMerit作為姐妹業務建立起來。通過Anudip,拜迪亞在加爾各答的一家iMerit辦公室找到了工作,他的妻子巴納利·派克(BarnaliPaik)也是如此,她在附近的一個村莊長大。
在過去的六年中,iMerit從Anudip雇傭了超過1600名學生。目前,該公司的員工總數約為2500人,其中超過80%的人來自月收入低于150美元的家庭。
iMerit成立于2012年,仍然是一家私人公司,它讓員工執行數字任務,比如轉錄音頻文件或識別照片中的物體。全球各地的企業付錢給公司,而且越來越多地,他們在協助AI訓練方面的工作。與丈夫迪帕克(Dipak)共同創立了Anudip和iMerit的拉達·巴蘇(RadhaBasu)說:“我們想讓低收入背景的人進入科技行業。”巴蘇和迪帕克在硅谷與科技巨頭思科、惠普等長期合作。
這些工人的平均年齡是24歲。像拜迪亞一樣,他們中的大多數人來自農村。該公司最近在加爾各答西部以穆斯林為主的社區Metiabruz開設了一家新的辦事處。在那里,它雇傭的大多是穆斯林婦女,她們的家人不愿意讓她們離開這個熙熙攘攘的地區。他們沒有被要求看色情圖片或暴力材料。
圖7:iMerit員工在加爾各答Metiabruz的辦公室接受培訓
起初,iMerit專注于簡單的任務,為在線零售網站整理產品清單,審查社交媒體上的帖子,但它已經轉移到了為AI提供支持的工作中。iMerit和類似公司的增長代表著從像Mechanical Turk這樣的眾包服務的轉變。iMerit及其客戶可以更好地控制員工的培訓方式和工作完成方式。
拜迪亞現在是iMerit的經理,他負責為美國一家大公司為培訓無人駕駛汽車所使用的街道場景貼上標簽的工作。他的團隊對數字照片以及激光雷達捕獲的三維圖像進行分析和標記。他們整天都在汽車、行人、停車標志和電線周圍畫邊界框。
拜迪亞說這份工作可能會很乏味,但它給了他一種他本來可能不會擁有的生活。他和妻子最近在加爾各答買了一套公寓,步行就可到達她工作的iMerit辦公室。拜迪亞說:“我的生活發生了夢幻般的變化,無論是從我的財務狀況、個人經歷以及英語技能等方面來看,都是如此。我獲得了一個機會!”
聽人們咳嗽
圖8:在iMerit新奧爾良辦公室工作的奧斯卡·卡貝薩斯(OscarCabezas)。當公司開始開發西班牙語數字助理時,他加入了公司
印度之行幾周后,梅茨乘坐Uber穿過新奧爾良市中心。大約18個月前,iMerit搬進了Superdome街對面的一棟建筑。美國一家大科技公司需要一種為其家庭數字助理的西班牙語版本標記數據的方法。因此,它將數據發送到新奧爾良的新iMerit辦公室。
2005年卡特里娜颶風過后,數百名建筑工人和他們的家人搬到新奧爾良幫助重建這座城市,很多人留了下來。許多會說西班牙語的人隨這支新的員工隊伍而來,公司開始雇用他們。
23歲的奧斯卡·卡貝薩斯(Oscar Cabezas)和母親從哥倫比亞搬到了新奧爾良。他的繼父在建筑工地找到了工作,大學畢業后,卡貝薩斯加入iMerit,開始開發西班牙語數字助理。
他注釋了從推文到餐館評論的所有內容,識別人物和地點,并找出含糊不清之處。例如,在危地馬拉,“pisto”意味著錢,但在墨西哥,它意味著啤酒。他所:“每天都有新的項目。”
這個辦公室的工作已擴展到其他領域,為希望將數據保留在美國境內的企業提供服務。出于法律和安全目的,有些項目必須留在美國。
42歲的格倫達·赫爾南德斯(Glenda Hernandez)出生在危地馬拉,她說她懷念以前在數字助理項目上的工作。她喜歡讀書,曾為大型出版公司在網上評論書籍,這樣她就可以獲得免費的副本,她很享受用西班牙語進行閱讀帶來的有償閱讀機會。
圖9:格倫達·赫爾南德斯(Glenda Hernandez)是新奧爾良iMerit的工作人員,她已經學會了區分咳嗽好壞之間的區別
赫爾南德斯對圖像標記或類似于對人們咳嗽的錄音進行注釋的項目不那么感興趣,但這是建立AI的一種方式,可以通過電話識別疾病癥狀。她說:“整天聽咳嗽有點兒讓人覺得惡心!”微軟人類學家格雷說,這項工作很容易被誤解。整天聽人們咳嗽可能令人惡心,但這也是醫生度過他們日子的方式。她說:“我們不認為這是苦差事。”
赫爾南德斯女士的工作是為了幫助醫生做好他們的工作,或者也許有一天,取代他們。她以此為榮。在抱怨了這個項目后不久,她指了指辦公室里的同事說:“我們都是咳嗽診斷大師。”
“我受夠了”
圖10:多倫多的克里斯蒂·米蘭德(KristyMilland)在Amazon Mechanical Turk工作了14年,這是一家眾包數據注釋任務的公司,現在她試圖改善從事這些工作的人的工作條件
2005年,克里斯蒂·米蘭德(Kristy Milland)在Amazon Mechanical Turk注冊了她的第一份工作。她當時26歲,和丈夫住在多倫多,丈夫管理著當地的一家倉庫。Amazon Mechanical Turk是一種賺點兒外快的方式。
第一個項目是亞馬遜自己的。米蘭德的筆記本電腦上會彈出三張店面的照片,她會選擇顯示前門的那張。亞馬遜正在建立一個類似谷歌街景(Google Street View)的在線服務,該公司需要幫助挑選最好的照片。
她每點擊一次就能賺0.03美元,或者說大約每分鐘0.18美元。2010年,米蘭德的丈夫失去了工作,Amazon Mechanical Turk成了她的全職工作。在兩年的時間里,她每周工作六七天,有時一天工作17個小時。她一年賺大約5萬美元。米蘭德女士說:“那時候夠了,但現在卻不行。”
當時的工作并不真正涉及AI。對于另一個項目,米蘭德會從抵押貸款文件中提取信息,或者從名片照片中重新鍵入姓名和地址,有時每小時只能賺1美元。
大約在2010年,米蘭德開始為AI項目貼標簽。她標記過各種各樣的數據,比如Twitter上出現的血淋淋圖片(這有助于建立AI,有助于從社交網絡上刪除血腥圖片),或者可能是在中東某處拍攝的空中鏡頭,想必是針對軍方及其合作伙伴正在建設的用于識別無人機目標的AI。
米蘭德說,來自美國科技巨頭的項目通常比普通工作的薪酬高,大約每小時15美元。但這份工作沒有醫療保健或帶薪假期,可能會讓人麻木或者令人深感不安。她稱其為“可怕的剝削”,亞馬遜拒絕置評。
自2012年以來,現年40歲的米蘭德始終待在名為Turker Nation的組織中,該組織旨在改善數千名從事這類工作的人的工作條件。今年4月,在工作14年后,她辭職了。
米蘭德在讀法學院,她丈夫的收入比他們每個月支付的房租少600美元,這還不包括水電費。所以,他們正準備負債。但她不會回去給數據貼標簽。她說:“這是一個反烏托邦的未來,我已經受夠了!”