如何避免自動翻譯把大家都變成「男人」? 精選

2023.04.14   科科性別|Facebook|2023.03.29
刊載於專欄 好文
给本項目評分
(0 得票數)

拜自動翻譯功能的發達,網路使用者在接觸非中文素材時,也能夠大略了解意義,不再需要擔心完全看不懂。

不過許多人可能也有類似的使用經驗:自動翻譯經常混淆文中提及的性別,導致女人變成男人、單數變複數,甚至人變成「物」。為什麼會發生這種情形?又該怎麼避免呢?

語料庫中的性別落差,造成翻譯系統以陽性詞稱呼女性

 

機器翻譯系統需要透過大型的語料庫(也就是收錄大量文本的電子資料庫)進行訓練。一份研究發現,Google Books當中的英文陽性代名詞出現頻率比陰性代名詞更多,尤其在1960年代出版的書籍中,前者曾多達後者的四倍。這種情形很有可能造成翻譯系統經過學習後,錯誤地使用陽性代名詞來指涉女性。

 

由於代名詞的性別落差在近年持續下降,使得相關的語料庫逐漸走向平等,若自動翻譯經常將男性預設為標準,可能使網路中的男性代名詞大量增加,導致語料庫的性別落差又再次擴大。



研發演算法辨認社會性別

 

為了解決前述問題,史丹佛大學的「性別化創新」(gendered innovations)研究團隊建議,可研發一套演算法辨識被指涉對象的社會性別(文化面向的態度、行為與表現)。這套演算法進行的方式如下:

 

  1. 找出文中提及的所有實體。
  2. 決定個別實體是生命或非生命,及其社會性別(某些外文也可能以陰性或陽性詞彙指涉非生命實體,例如德文的「太陽」是陰性,「月亮」是陽性)、及數量(單數或複數)。
  3. 透過機率演算法,根據文本脈絡和個別實體的生命性、社會性別、及數量,歸納文中提及的實體。



納入性別中立語言,使機器翻譯更加包容與精確

 

若要更精確地翻譯性別,系統也可以進一步學習納入性別中立的語言。

 

一來,由於特定的語言當中具有中性的代名詞(例如土耳其語的「o」),如此能提供更貼切的翻譯。目前Google翻譯土耳其語的中性句「o bir doktor」,會同時顯示「她是醫師」與「他是醫師」。

 

另一方面,透過使用如「他們」或瑞典語中的「hen」等性別中立的代名詞,也能更加包容例如雙性人等非二元性別者。



延伸閱讀:

性別化創新基礎方法-機器學習 https://tinyurl.com/56mbmj2h

性別化創新案例研究-機器翻譯 https://tinyurl.com/mr2zrh29

 

科科性別已經有IG(@kekegender)了!在這裡: https://www.instagram.com/kekegender/

了解更多科研領域中的性別議題:https://tinyurl.com/22tjby8d性別化創新中文網)

 

-


本文 科科性別〈如何避免自動翻譯把大家都變成「男人」?〉
(引自科科性別https://www.facebook.com/photo?fbid=686642446801222&set=a.50257221187491

729 最後修改於 %2023.%05.%17
此分類更多內容: