Revealing the Hidden Patterns of News Photos: Analysis of Millions of News Photos Using GDELT and Deep Learning-based Vision APIs.

書名（以學術體例詳填資料，網路來源提供超連結及檢索日）：揭露新聞圖片中的隱藏模式：使用基於深度學習技術的圖像分析API分析GDELT（世界整合新聞數據庫）中的百萬張新聞圖片

Kwak, H., & An, J. (2016). Revealing the Hidden Patterns of News Photos: Analysis of Millions of News Photos Using GDELT and Deep Learning-based Vision APIs. arXiv preprint arXiv:1603.04531.

導讀者：李欣穎

摘要：

在這項研究中，我們分析在2016年一月英語世界發表的兩百多萬新聞圖片，回答以下的問題：1.出現在新聞圖片的對象；2.新聞圖片的情緒是什麼；3.新聞圖片的情緒與文本的語氣是否一致；4.人物的性別分布；5.不同政治候選人如何被描繪。據我們所知，這是採用基於深度學習技術的圖像分析API，來分析新聞照片內容的首次大規模研究。

重點整理：

前言

在2016年，Google發布圖像內容分析的API，稱為Google cloud vision API，它可以自動識別一幅照片中的物體、面孔與情緒。在這篇研究中，我們使用的圖像來源是GDELT（世界整合新聞數據庫），記錄2016年1月份超過兩百萬張的新聞張照片，並使用Google cloud vision API進行圖像內容的分析。

我們發現，60.3％的CNNs新聞圖片有出現人物，高於Fox News的53.2％。在國際版的新聞圖片（比如與政治人物發表談話）也出現一些分歧。為了擴展我們對照片中人物的了解，我們分析了新聞圖片的情感。我們發現，四分之一新聞圖片中的人臉表達了喜悅，剩下大部分是中性情緒、沒有情感方面的屬性。此外，透過使用 Microsoft Project Oxford Face API，我們發現在新聞照片中，女性比起男性有更多地微笑、看起來也更年輕。

然後，我們進行美國民主黨和共和黨總統候選人在新聞圖片中的案例研究。我們發現，除了民主黨總統參選人桑德斯（Sanders）以外，相當多比例的候選人被標記作為一名運動員，通常是源自他們的「勝利」姿勢或背景模糊、對焦面部的拍攝方式。此外，在美國前六個受歡迎的新聞媒體中，另一名民主黨總統參選人希拉蕊（Hillary Clinton）比桑德斯更常表示喜悅。

GDELT（世界整合新聞數據庫）

GDELT(Global Data on Events, Location, and Tone)是針對廣泛的媒體（例如新聞媒體和部落客）的公開資料集。它監視全世界超過100種語言的媒體並且建立索引(Leetaru and Schrodt 2013)。學者說，"GDELT是開放的資料集，它試圖使人類社會可計算"。Kwak（2014）進行了外國新聞報導的研究大規模。大多數以前的研究只能集中於單個或幾個國家，由於資料的缺乏 (O'stgaard 1965)，Kwak的研究透過使用GDELT資料集得以涵蓋了整個世界。主要的發現是強烈的地方保護主義、國際新聞機構在全球新聞所發揮的重要作用。

視覺圖像是GDELT資料集的一部分。GDELT最近發佈了Visual Global Knowledge Graph (VGKG)，提供在世界新聞中所採集到的圖像與索引，並支援Google cloud vision API，將每個圖像變成一組文本，辨識圖像的功能，如圖像的主要議題（包括哪些類型的物件），人的情緒（人是否在照片表達喜悅、憤怒、悲傷或驚喜），地點，信心分數(0~1.0)。VGKG資料集是從2016年1月1日公開可用。

資料集

我們從VGKG下載了2016年1月1日00:00到2016年1月31日23:45的資料。我們也下載了GKG在同一時期。透過URL來比照，我們配合GKG和VGKG的記錄，增加VGKG資料（新聞圖片的屬性）的GKG資料（新聞圖片中的文字）。

表1提出了資料的摘要。在表中，500大新聞網站是指根據網站流量排名Alexa.com所列出的前500大新聞媒體網站中所有VGKG記錄。

表1中的全部資料都是源自用英語寫的GDLET新聞文章。它包含最受歡迎的新聞媒體、通訊社，甚至是部落客。這些新聞來源包含專業記者和個人部落格。

本研究考慮了VGKG中有建立索引的文章數目(>1,000)和媒體普及程度(在Alexa.com列為前30大的新聞網站)，選擇分析7大新聞媒體：BBC, Bloomberg, CNN, Fox News, HuffingtonPost, Reuters, and Time。我們排除雅虎新聞，因為我們的目標是描述每個新聞的原始來源，而不是收集新聞入口網站的新聞。此外，我們排除了衛報，因為很多其索引的圖像是"未經授權"的資訊，這會阻止程式直接存取圖像。表2總結了7間新聞媒體的資料量。

新聞圖片分析

典型的報紙被劃分成多個版面，如政治、健康或娛樂。儘管這是粗略的分類，但它也表明了一篇新聞報導的主題。在數位化時代，這種分類的資訊甚至可以從URL中捕獲到。本研究資料集中的七個新聞媒體，其中有兩個新聞媒體（CNN和福克斯新聞）在URL中包含了版面名稱。例如，我們可以識別出來，這篇文章是在健康版面中，從"HTTP://edition.cnn.com/2015/12/31/health/auto-brewery- syndrome-dui-womans-body-brews-own-alcohol/"。在本節中，我們想要研究不同版面的照片有何不同，因此，我們集中分析CNN和福克斯新聞。

分析URL後，版面可以分為兩類︰（1）主題和（2）區域。第一類是新聞主題。上面的例子，'政治'或'技術'，就屬於此類別。從CNN中，我們發現九個主題︰政治、輿論、保健、娛樂、投資、媒體、技術，旅遊和生活。從福克斯新聞，我們也找到了九個主題︰健康、政治、娛樂、意見、休閒、科技，科學、旅行和生活風格。

另一種版面是區域--新聞發佈國家、或是事件發生的地方。我們發現，CNN具有廣泛的區域類型，如'美國'、'亞洲'，'世界'、'中東'、'歐洲'和'非洲'，而福克斯新聞有只'美國'和'世界'。

我們接著透過Google cloud vision API調查什麼內容會頻繁地出現在新聞照片中。我們使用信度(confidence score)高於0.8的標籤。表3列出了每個新聞圖片版面中十大最常見的物件。

首先，我們觀察到"人"頻繁地出現在除了旅遊版面以外的新聞照片中。對於某些版面，如政治、意見和娛樂，"人"會出現在所有圖像的60%以上。相比之下，我們注意到來自500大新聞媒體的照片，有40.5%包含"person"或"people"。換句話說，我們可以看到新聞照片中出現人的比例很高。

關於面孔的一系列的標籤，如面部表情、鼻子，頭髮，髮型和眉，見於政治、健康、娛樂和意見版面中。這些標籤表明，新聞圖像用不同的方法來刻畫人類，「特寫」是最常見的標籤。Kress and Van Leeuwen（1996）的研究發現，特寫肖像往往要比一個長鏡頭給予觀眾更加親密的感覺。政治、健康、娛樂和意見等版面是以人為本的，特寫照片可能可以讓新聞圖像中的人的形象與讀者有更加親密的關係。

表4提供跨區域新聞照片中前10大常見的物件。同樣地，人是最常見的標籤。有趣地，源自美國的新聞，「女人」成為新聞圖片中主要的物件，相對於其它地區。

Golan發現西方大眾傳媒以戰爭、貧窮、饑荒、衝突、暴力和衝突做為對第三世界的寫照，並導致負面的看法(Golan 2008)。我們在新聞圖像的分析中也發現，非洲新聞圖像包含荒野、食品相關的標籤。這是透過大量圖像分析以理解非洲在現代媒體中有別於世界其餘國家所被演示的媒體再現形象(stereotypes)。

新聞中的面孔

在前面的部分中，我們發現，大部分的新聞照片都在描繪一個人。我們進一步提供提供面孔拍攝角度、面部情感的深入分析。在過去進行這種研究，人工編碼是不可避免地。然而，由於Google cloud vision API可以檢測面孔，並提供圖像的拍攝角度、和臉上的情感（例如，憤怒或快樂），我們可以基於大樣本來探索人們在新聞圖片中的情感。我們只考慮成功檢測人臉，與較高信度分數的圖像(>0.8)。

首先，我們來看看面孔在新聞圖片中的呈現方式。VGKG以廣泛應用於描述攝影角度的三種度量標準，來測量在照片中的出現的臉孔：pan、roll、tilt。 pan是在水平線上平移相機。Roll是在空間中的Z軸移動相機；當我們使用景觀模式和縱向模式拍一張照片時，就表示roll。最後，tilt表示向上或向下傾斜相機。

三種拍攝角度的照片數量都呈現「鐘狀」分布。我們發現，記者最有可能使用正面視圖。此外，平視pan的照片張數多於roll和tilt。這是可以理解的，因為過度翻轉或和傾斜的新聞視圖，看上去只會顯得尷尬。

Google cloud vision API提供的另一項功能是情緒辨識。它針對四種情感標籤進行偵測，分別是喜悅、憤怒、悲傷和驚奇。偵測結果會分為四個層面︰非常不可能 (-2)，不可能 (-1)，有可能 (1)，很有可能 (2)。

研究發現，新聞圖像中的面孔明顯偏向積極的情緒。然而，這與最近針對新聞報導標題的情緒分析--多為負面形成鮮明對比。Reis等人研究發現大部分的新聞標題（超過 50%的新聞文章)是負面的，其次是中立和積極的（Reis et al.，2015）。本研究認為，這意味著在負面新聞事件中，新聞照片中的面孔情緒，可能與新聞文章表達的整體情緒不同。

政治新聞中的人物圖像

在本節中，我們研究政治方面的新聞照片，著重描繪在不同的新聞網站中，不同美國總統候選人的新聞圖像。

新聞媒體報導政治新聞時，長期被指責帶有偏見。最近，學者們已經開始在研究中提出了一種在新聞報導中以視覺圖像來分析新聞機構的政治立場偏向，特別是那些研究目的側重於媒體中的版面覆蓋率（Waldman and Devitt 1998）。

經過人工檢驗，我們發現一位政治人物的「勝利」姿勢圖像，常被Google cloud vision API稱為「運動員」，且得到高信度分數，如圖8所示。

此外，帶有明顯聚焦、和模糊背景的人物圖像，也常被API辨識為運動員，因為它與體育照片的拍攝方式非常相似。儘管這個標籤不是正確的，然而，我們可以使用它作為協助我們更加細微的分析照片。是否有特定的政治人物，比起其他政治人物更有可能被API貼上「運動員」的標籤嗎？

我們專注於五個美國政治人物：兩個民主黨的2016年美國總統選舉主要候選人 Hiliary Clinton and Bernie Sanders，以及三位共和黨的主要候選人，Donald Trump, Marco Rubio, and Ted Cruz。

我們首先評估媒體對這些政治人物在報導族則數上是否存在偏見。因為VGKG不提供辨識照片中人物是'誰'的功能，我們基於圖像的URL來推斷圖像中的實際人物。URL大致描述了照片，以決定在這張照片中的人是克林頓還是桑德斯。例如，我們可以提取桑德斯從' HTTP://i2.cdn.turner.com/cnnnext/dam/assets/160117095426- bernie-sanders-gun-liability-corporations-reversal-sotu00000000-large-169.jpg'。

表5列出在CNN 和福克斯新聞照片中，五位美國總統參選人被API辨識為一名運動員的比例。我們發現，桑德斯很少被辨識為一個運動員，相較於其餘政治人物。

政治人物被API辨識為運動員，可能涉及生物學因素--候選人的年齡。桑德斯是候選人當中年紀最大的(74)，而盧比奧(Rubio)是最年輕的(44)。雖然我們不知道兩位候選人實際地競選策略，但我們可以從圖像分析中推測，桑德斯嘗試以冷靜和安靜的態度、強調專業經驗作為形象塑造的方式。

當然，另一個可能影響政治人物在新聞中的圖像內容的變數，是新聞機構本身的政治傾向。我們根據維基百科，找到10家支持希拉蕊·克林頓的新聞媒體，和4家支持伯尼·桑德斯新聞媒體。因此，我們基於新聞媒體支持的候選人（希拉蕊·克林頓或伯尼·桑德斯）來進行比較。在支持克林頓的媒體中，我們可以看到比起克林頓(14)，有更多桑德斯(22)的照片被刊登，但沒有一張桑德斯照片被標記作為運動員(表6)。不幸的是，支持桑德斯的媒體，並不作為VGKG收錄資料的對象。

政治人物在新聞中的情緒

然後，我們將新聞中政治人物的面孔和他們臉上的情感相連結。Google cloud vision API一個幫助我們確定候選人情感的功能是辨識"微笑"--Goodnow (2010)研究發現奧巴馬在照片中比克林頓具備更多微笑。眾所周知，微笑向觀眾呈現出一個積極的、不具威脅性的印象(Goffman 1979)。沿著這樣的研究脈絡，我們也注重候選人在照片中的面部表情。

有趣的發現是，在CNN中，我們找到兩個'悲哀'面孔的桑德斯。在CNN，沒有其他候選人照片被辨識出悲傷的情緒。在CNN中，桑德斯沒有快樂過，即使他的面孔在CNN上出現29次。

結論

在這項研究中，我們研究了發表在2016年1月份、超過200萬張的新聞照片，使用Google cloud vision API。

當然，有一些限制在這項研究中。第一，我們僅有為期一個月的資料集。更長期間收集的資料將會使得研究結果更全面、更有力。第二，Google cloud vision API的辨識精確度是這種研究得以成功的關鍵。正如API針對每個偵測所顯示的信度分數，我們過濾掉了較低分的偵測結果。我們未來的研究方向之一是做Google cloud vision API與Microsoft Project Oxford Vision API的比較分析。

另外，我們有發現在多篇新聞文章中，有一些圖像重複出現。我們在這篇研究中沒有特別關注這個現象，但這可能是新聞媒體透過多次提供相同的圖像，想要加強人們對一些圖像的印象。最後，本研究沒有考慮到照片的大小差異。在以往文獻中，報紙上的篇幅與圖像大小都會發揮作用，表明對一個特定對象的重要性。

與本研究問題意識相關的概念與延伸對話：

一、使用Google cloud vision API上的借鏡

1. 以0.8做為信度分數的準確度門檻，可供本團隊參考

2. 將API辨識結果與其他數據源交叉分析。本文透過URL與Alexa.com，得出更完整的新聞圖像meta data，如新聞機構、新聞機構排名、新聞地域、所報導的人物。

3. 基於理論文獻與研究目的進行API辨識結果的描述。本研究之目的為介紹Google cloud vision API，因此沒有進一步將辨識結果與理論對話。舉例來說，人物在新聞中的拍攝角度在本研究中只有單純的描述性統計，但其實可以有更進一步的研究深度。

4. 數據驅動的傳播學理論對話：技術解決了針對大量圖片進行內容分析的門檻，對於新聞機構的政治偏見、當代新聞小報化、特定對象在新聞媒體中的再現形象，都開啟了基於數據的、與過往研究定見對話的空間。

延伸閱讀：(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

無

資料狀況：

■電子檔（摘要／全文）:

□ 紙本（摘要／全文）:

□ 其他狀況：

如有重要相關圖表及附件請附在本頁後面，並在「其他狀況」項目內註明，如：附圖二張。

揭露新聞圖片中的隱藏模式：使用基於深度學習技術的圖像分析API分析GDELT（世界整合新聞數據庫）中的百萬張新聞圖片.docx

Google Sites

Report abuse