預測注意力在圖像上的軌跡變化

利用人工智慧仿生出人類眼睛追蹤路線

研究目的

日常生活中眼睛是人們不可或缺的一個器官，而人的視線經常會在第一時間注意到畫面的一個物件或者是一個點，在觀看網頁時，滑鼠也會不自覺的移動到有興趣的地方，因此我們利用觀看圖片時眼球移動或滑鼠移動軌跡的相關資料集來進行預測。

動機

正常觀察者的掃瞄路徑（紅色路徑）自閉症觀察者的掃瞄路徑（綠色路徑）

日常生活中眼睛是人們不可缺少的一個感知器官，同時眼神視線的路徑也能表達出一個人的身心理狀況，一般而言正常人們的視線經常會在第一時間注意到畫面的一個物件或者是一個點，但是罹患自閉症的患者視線路徑會呈現雜亂且無組織，因此我們想利用眼球移動的相關資訊來進行預測人眼的移動。

目前常見的使用方法

由於資料是與時間相關的類型(序列數據)所以會使用遞迴式結構的類神經網路來進行預測，而遞迴神經網路能夠從這個序列中學習到不同的模式，並能夠在未來預測下一個時間點中眼睛的位置。

以下是幾個目前在眼球追蹤的近代文獻中較為常見的幾種方法。

RNN (Recurrent Neural Network)遞迴神經網路

RNN主要用途是為了處理及預測序列化數據因為CNN(卷積神經網路)在隱藏層內的類神經元並沒有記憶的功能。

優點是可以處理任意輸入/輸出長度、循環神經網絡使用時間序列信息(比如我上次發言的內容將影響我接下來要講的內容)

缺點則是無法捕捉長期時間之間的關聯。簡單的 RNN 結構無法處理隨著遞歸權重指數級爆炸或消失的問題，這種現象稱之為『梯度消失』(Vanishing Gradient)

LSTM(Long Short-Term Memory)長短期記憶

基於上述 RNN 的限制，可以透過 RNN 的變形，也就是 LSTM 來解決。LSTM 的特色是能夠學習長距離的依賴關係。

優點是解決了RNN中梯度消失的問題，可用於處理與時間序列高度相關的問題。

缺點:

一般LSTM的輸入本質上是一個一維向量，丟棄了相對空間資訊而這對於模擬人類視覺是不可或缺的。

計算費時。如果LSTM的時間跨度很大，並且網絡又很深，計算量將會變得龐大且耗時。

IOR-ROI-LSTM (IOR-ROI 循環混合密度網絡)

由於上述的兩個網路在預測掃描路徑方面有一些缺點並不符合預測模擬掃描路徑的需求所以我們使用了一種卷積神經網路和長短期記憶（LSTM）的模型，以生成逼真的掃描路徑。

核心部分是一個雙LSTM單元，它是一種基於卷積LSTM（ConvLSTM）的生物仿生(a bio-inspired)和可解釋的掃描路徑預測架構(interpretable scanpath prediction architecture)，該架構包含一種新型的IOR-LSTM以及ROI-LSTM來捕獲IOR動態和視線轉移行為方面同時改變行為。

且經由此論文實驗結果表明，所提架構在預測掃描路徑方面具有較好的性能。

IOR-ROI LSTM的圖片來源

LSTM的圖片來源

相似性評估

接下來我們使用的評估指標是用來衡量實際和預測的路徑的相似程度，有利於我們判斷模型的優劣。

MultiMatch(MM)

一種基於幾何向量的方法，使用向量方法將掃描路徑作為理想結果，而每個掃描路徑中皆有方向與長度。於實際與預測的兩筆資料中，在注視點間尋找點與點間的最短距離，將其連接進行比對，而後所產生的中位數再使用標準化轉變為百分比，依照百分比作為準確度，找出兩點間最短路線並將其兩點相連。

MultiMatch(MM)一共有以下比較的資訊

一、 vector(向量)

二、direction(角度)

三、length(長度)

四、position(位置)

紅色線為實際路徑，綠色線為預測路徑

一、vector(向量)

根據兩個點之間的向量長度，去比較實際與預測的相似性。

(圖片來源:cat2000 dataset)

二、direction(角度)

由圖片中的左下角的端點位置分別到實際與預測的注視點來尋找角度距離的相似性。

(圖片來源:cat2000 dataset)

三、length(長度)

由圖片中的左下角到許多點的長度，藉由這些長度去做相似性的比較。

(圖片來源：《奧運》殿堂圓夢落淚感謝家人謝喜恩：不要設限自己)

四、position(位置)

比較掃描路徑表示實際與預測注視和掃視的位置，對準注視點之間的位置差異做相似性比較。

(圖片來源:cat2000 dataset)

資料處理步驟

下方圖片是我們大致的預測流程圖，詳細的內容會在後面逐一說明。

使用LSTM對兩個不同的資料集進行預測的過程

資料介紹&資料清理

SALICON DATASET

來源:salicon dataset

每張圖片的觀看人數不同

圖片數:分測試、訓練及驗證，共20000張

平均觀看秒數:約3~5秒
資料蒐集方法:使用通用鼠標代替眼動儀來記錄觀看行為

MIT1003 DATASET

來源:MIT1003 dataset

參與者:15人

圖片數:1003張

平均觀看秒數:約3秒
資料蒐集方法:眼動儀

資料前處理

將資料中的資訊進行合併與統整。

合併完的欄位名稱依序為x(座標)、y(座標)、Uname(受試者名稱)、ID(圖片名稱)、le(點的個數)、time(時間)

為了讓觀看網站的人們更容易方便的查看我們的資料，

所以我們將座標與圖片進行結合並製作了gif圖。

把資料集中的路徑資料與圖片結合

建模

我們所使用的模型為LSTM，輸入、輸出層皆為2(X與Y座標)，而且隱藏層1跟隱藏層2分別使用50跟100的神經元數。

對同樣的資料集但不同的處理方式來進行預測並繪製出圖片

使用不同的處理方式的原因是想要嘗試哪種訓練模型的方式會更優才分成兩種。

左半邊的模型處理方式是使用各自圖片的資料拆分成7成訓練集和3成測試集後進行模型訓練的，而右半邊的建模方式則是利用所有圖片的資料集合起來後再拆分訓練集和測試集完才開始訓練出模型。

結果

經過上面的模型訓練後所預測出來的路徑和原始路徑，以及當RMSE和DIS相差過大時產生的路徑進行比較。

表格指標介紹:

V: 路徑的向量相似度，D: 路徑的角度相似度，L: 路徑的長度相似度，P: 路徑位置相似度，RMSE: 根均方誤差，DIS: 距離差

Salicon全圖模型(表一)

MIT1003全圖模型(表二)

表格說明

由四張圖中真實與預測路徑我們可輕易看出預測效果的好壞，但單看MM評估的結果並無法有明顯的差異，因此我們增加了均方根誤差(RMSE)與距離差(DIS)來協助分析。RMSE跟DIS的值越低代表較好，越高則是較差，上述表格皆為全圖模型最好RMSE與最壞RMSE來進行比較。Salicon全圖模型最好與最壞的四個指標皆為90%以上，其中RMSE與DIS比較好的那張圖可見，實際路徑與預測路徑重疊性高，而RMSE與DIS比較差的圖可見，實際路徑與預測路徑可以明顯的看到差異，同理可知，MIT1003全圖模型也是如此。除了重疊性的高低外，由兩張表格的四張圖中可以明顯看見預測(紅)為實際(藍)的位移與縮小版，其中Salicon實際路徑與預測路徑整體相似度比較高，而MIT1003整體因為角度的關係相似度比較不那麼高。

V: 路徑的向量相似度，D: 路徑的角度相似度，L: 路徑的長度相似度，P: 路徑位置相似度，RMSE: 根均方誤差，DIS: 距離差

Salicon單張模型(表三)

Mit1003單張模型(表四)

表格說明

相對於表一表二，表三表四皆是使用單張圖片訓練的模型，因此減少其他圖片帶來的雜訊。Salicon單張模型(表三)最好與最壞的四個指標皆為80%以上，最好的RMSE(均方根誤差)相比於Salicon全圖模型比較好的路徑重疊性更高，而最壞的RMSE(均方根誤差)又比全圖模型比較差的路徑重疊性更差。然而MIT1003(表四)單張模型也獲得相同的結論。因此可知，兩種不同的建模方式可發現，全圖的訓練結果比較綜合，而單張模型的訓練結果會呈現數值較為極端。因此後續會以全圖模型為主做修改與調整。

結論

這次專題主要使用LSTM的方法進行建模及預測，並使用MULTIMATCH來進行相似度的評估。在評估的過程中，我們發現了預測路徑與真實路徑的相似性普遍偏高，然而為了可以更加明瞭資料中的資訊，我們對預測與真實的路徑進行畫圖並計算其RMSE與兩點間的平均距離來協助分析。如右圖，可看見預測路徑為真實路徑的縮小版並且有位移，我們認為在建模中的參數、資料中的圖片大小與像素……等皆是可能造成此現象的原因，因此想讓預測路徑更加接近真實路徑還需要進行適當的模型調整。

專題影片

參考資料

指導老師：郭珈妤老師、林建華老師

組員：鄭巧盈、周鈺芳、洪霈芯、紀欣妤、陳慶耀、葉毅華、蔡沅峻

Page updated

Google Sites

Report abuse