AI 算法偏見(性別、人種……)如今在海外早已不是新鮮議題,不久前,推特上的一條視頻就引發了大眾對此大規模的探討。一名年輕的微軟研究人員就此話題在個人推特上展開了對面部識別系統模型所存在偏見的探討,引發了包括 Jeff Dean 等大牛在內的共鳴。她究竟說了些什么?
事情起源于推特上的一個視頻,在視頻中,社會黨眾議員 Alexandria Ocasio-Cortez 聲稱由數學驅動的算法本質上都是擁有種族主義傾向的。這條帖子很快獲得了大眾的響應,其中就包括一位名叫 Anna S. Roth 的研究人員。
原帖轉發量截止目前為止已經達到了 2.8k,擁有超過 7.2k 的留言。
據個人主頁介紹, Anna S. Roth 是微軟技術與研究部門的一名研究人員,專職于微軟的 Project Oxford 項目——這是一個混合了 APIs 與 SDKs,使開發人員能夠輕松利用 Microsoft Research 和 Bing 的計算機視覺、語音檢測和語言理解前沿工作進行再創造的項目。此外,她還曾經入選 Business Insider 雜志「30 位 30 歲以下具有影響力的科技女性」榜單。
她在個人推特上接連發表多達 29 條的短評,簡單概括了面部識別系統模型產生偏見的原因,以及相應的解決方案和現存困境。由于內容淺顯易懂且直中要害,谷歌大腦領導人 Jeff Dean 也忍不住在推特上進行推薦。
接下來一起看看 Anna S. Roth 分別說了些什么吧。
關于數據偏差問題
Alexandria Ocasio-Cortez 說的完全在理。我曾經從事面部識別的商業開發工作(當時的方向有點偏,開發的是存在偏見的模型),我認為人們最終會找到一些具體可信的例子搞清 AI 系統是如何產生偏見的。推特上的專家們解釋了,面部識別系統之所以產生偏見,是因為數據有所偏差。
所以我準備和大家談談:
(1)那些(有偏差的)數據來自哪里。
(2)偏差測量標準的選擇同樣事關緊要。
(需要強調一點是,我只是針對行業所發生的一些事情進行泛泛而談,并非專指本人雇主的某個具體事例。簡單來說,這些都只是我的個人意見,不代表雇主的立場。)
最前沿的面部識別系統都需要在「非常龐大」的數據集上進行訓練。為達到最佳訓練效果,你需要獲取同一個人的多張相片。比如當下最大的發布數據集之一——來自 UW 的 MF2,就擁有 672K 的人員信息和 4.7M 的相片。
這些數據主要來源于網絡,比如 MF2 數據集的數據就出自 Flickr;另一個數據集 MS-Celeb-1M(
https://www.msceleb.org
)的 1000 萬張圖像則是從網上「爬」下來的。需要強調的是,「在公共互聯網上流傳的照片」并不能夠完全代表「世界上的所有人類」。
然而全球的互聯網訪問量并非均勻分布的。連研究人員也一樣。你可能抓取的還是那些以英語作為媒介語的網絡資源/視頻(記住,您需要獲取同一個人的多張照片。)那么我想請問的是,使用 Flickr 的都是哪一些人?在微軟名人數據集 MS Celeb 的論文中,說明了數據集中的 100 萬個名人有超過 3/4 是女性——所以在判斷哪個性別的人群在網上更有名氣時,是否就會陷入 Alexandria Ocasio-Cortez 所謂的「自動化假設」陷阱?對此,負責構建數據集的人員一般會通過多種手段進行調整。
一個非?!笩X」的選擇是走進「現實世界」中,通過付費的方式進行數據收集。然而想把這件事情做得「正確」(比如收集數據的地點)、做得「符合倫理道德」(比如是否獲得對方同意、公平補償等),可一點都不簡單。然而這些細節卻會導致結果存在「巨大」差異。
當然我們還可以擁有其他的數據來源。比如有些人就想到使用嫌疑人照片(呀!又是一個根深蒂固的社會偏見影響數據集+注釋的例子)。據我所知,一個處在非美國監控州的國內公司可以訪問那些大型政府數據集。(很顯然如果你是 FB,還可以訪問那些具有更好分布的數據。)
數據集不僅僅是你保存數據 + 進行標注的地方。很多數據集需要人類進一步手動進行注釋,一般會通過眾包的形式(即通過在線平臺零碎地給眾包人員支付費用,而且往往金額較?。?。眾包形式存在太多來自人類的干擾因素。比如眾包人員的文化背景?他們是不是被問到實際上屬于主觀的問題?(年齡、情緒等)
關于數據偏差測量
如今我們達成的一個共識是,有偏差的數據輸入將導致有偏見的模型。實際上,我們已經擁有許多很酷的技術方法可以解決訓練數據的分布問題。
一般要想評估模型的偏差情況和表現性能,你需要找到方法來進行測量。否則你無法得知模型的偏差原因和偏差程度。打個比方,您也許需要創建一個包含具有各種特征的人員的標簽數據集,以便你在組與子組上測試模型的運行情況。
偏差測量需要綜合這些人的角度和觀點——在哪些問題是重要的以及社會科學層面上可能受到模型影響的人群。打個比方,「如果你戴眼鏡,將導致模型表現變得不夠準確」要比「如果你是有色人種,將導致模型表現變得糟糕」的危害更小,這是有一定社會原因的。
決定哪些內容需要進行測量、構建測量數據集、發布相關標準,是你構建相關系統時的「明智」選擇。因此,當 Alexandria Ocasio-Cortez 說「種族不公被模型傳遞出來,是因為算法仍由人類掌控」時,她是完全正確的。
從過去到現在,對于這么做可能導致的嚴重后果,人們已經一次又一次進行記錄。詳見:http://gendershades.org/。它為致力于解決這些問題的不同人群提供了強而有力的論據。(注:這也意味著國際化與多樣性。比如計算機視覺領域的大部分工作都是在中國完成創建和消費。因此這些主題都具有國際化視角。)
相關解決方案
回到 Alexandria Ocasio-Cortez 引發的議論。她給到我們的一點啟發是,AI 倫理學并非單純的「減少偏見的技術方法」或者「應用倫理學」。而是偏見滲入到模型當中、或者模型以不適合的方式被使用、或者循環反饋機制加強偏見,因為這些原因交織而成的新問題。
我經?;叵搿洞笪餮蟆冯s志一篇關于德國執法部門調查庇護申請的報道中所出現的這句話。當最終采用這些概率系統的用戶將系統的性能歸結為「天賜」的,而非人類,將會發生什么事情?
「BAMF 的面部識別軟件以及由它所繪制的龐大數據庫,現在看來像是「天賜的」,一位職員帶有敬意地表示道?!肝覐膩韽膩頉]見它出過錯?!?/span>
我試圖給出一些實際例子,說明涉及面部的識別能力可能導致什么樣的嚴重后果,以幫助大家理解這個視頻的大背景。然而,這些想法實際上都來自學界和公眾的倡導?!府斚隆惯@個領域正在產生「如此之多」的學術研究,這些都是那些有見識的想法的來源。我們很幸運能夠向 @timnitGebru、 @jovialjoy,、@hannawallach,、@mathbabedotorg,、@jennwvaughan 這樣的專家們學習。
我就以這些話作為本次意見發表的收尾吧。作為一名過去經常投入在面部識別相關研究工作的人,我非常感謝這個領域的專家們,他們的功勞包括發現了我當時所研究系統的嚴重問題(以及創造性的修復方法)。
注 1:所有帖子均不代表本人雇主意見。
注 2:我希望看到除了 @ AOC 和 @RonWyden 以外,有更多立法者能夠為長期被嚴重忽視的技術政策問題提供復雜卻有效的解決方案。
注 3:本周有一篇由 Inioluwa Deborah Raji 和 Joy Buolamwini 共同撰寫關于 Gender Shades(用于檢驗商業 AI 模型是否存在性別與人種偏見的算法)測試結果的新論文。這里預祝你們閱讀愉快。
附:雷鋒網 AI 科技評論摘錄了《 AI Now Report 2018 》針對 AI 問責制的 10 條建議,以供參考
政府需要擴大特定部門機構的權力來監管、審計和監控特定領域的技術,以便更好對人工智能技術進行監管。
我們需要通過嚴格的法規對人臉識別與情感識別的使用進行監管,以保護公眾的利益。
人工智能領域迫切需要新的治理方法,正如這份報告所示,大多科技公司的內部治理結構尚未能很好地對人工智能系統產生的結果進行問責。
人工智能公司應該為了公眾利益放棄那些妨礙進行問責的商業秘密與法律主張。
技術公司應該為良心拒服兵役者、員工組織以及道德檢舉者提供必要的保護。
消費者權益機構應該對人工智能產品與服務實施「廣告真實」法。
人工智能公司需要超越「流水線模式」,致力于解決工作場所出現的排擠與歧視行為。
西安軟件開發、西安APP開發、西安軟件外包、西安軟件開發、西安網站建設、電商軟件開發、社交軟件開發、直播軟件開發、西安網站制作、西安區塊鏈開發
我們需要對人工智能系統「全棧供應鏈」進行詳細梳理,以保障公平性、問責制與透明度在人工智能領域的落實。
我們需要意識到在人工智能問責制度的建設問題中,訴訟、勞工組織以及社區需要更多來自資金和其他方面的支持。
大學里的人工智能項目應該將研究視野擴大至計算機科學與工程學科以外的內容。