描述聲量趨勢的漲跌程度-馬克士威-波茲曼分布(Maxwell-Boltzmann distribution)

主題(以學術體例詳填資料,網路來源提供超連結及檢索日):描述聲量趨勢的漲跌程度-馬克士威-波茲曼分布(Maxwell–Boltzmann distribution)

參考資料

1.        Subercaze, J., Gravier, C., & Laforest, F. (2016, February). Real-time, scalable, content-based Twitter users recommendation. In Web Intelligence (Vol. 14, No. 1, pp. 17-29). IOS Press.

2.        papple23g(民105年10月24日)。Re: [討論] 如何看出一個動漫腳色或作品,過氣與否?。看板C_Chat文章:https://www.ptt.cc/bbs/C_Chat/M.1477243544.A.0E9.html

導讀者:李欣穎

重點:

過去水火團隊分析特定事件的社群媒體數據時,主要以單一個案作為研究單位,較少進行多個個案之間的社群媒體數據比較分析。另外,過去水火團隊進行社群媒體數據分析所採用的統計方法多為描述性統計與探索式的資料分析,主要目的在於以圖像呈現社群媒體數據的輪廓與分布。

然而,若未來的研究目的轉向進行多個個案之間的社群媒體數據比較,描述性統計與探索式的資料分析方法對於前述目的僅能就數據的描述性統計量之間進行孰大、孰小的對照(如聲量數字、討論天數)。某些社會科學的特質若要被量化地呈現,需要使用到較高位階的統計量,這也是近來採取預測、推薦做為研究目的的社群媒體個案研究論文中會出現數學模型、數學公式的緣由。

因此,這次導讀從「描述聲量趨勢的漲跌程度」此一導讀目的切入,介紹並實作如何用「馬克士威-波茲曼分布(Maxwell–Boltzmann distribution)」此一數學模型,來呈現特定事件在社群媒體上的討論趨勢,包含事件被討論的熱門程度(竄紅程度),以及事件討論趨勢的淡化程度(淡忘程度)。

所謂的馬克士威-波茲曼分布(Maxwell–Boltzmann distribution),可見下圖,原始的物理意義是在描述特定物質的個數(空氣中的分子)隨著特定變數(如移動速度、溫度)而改變,而這種改變會有指數衰減(盛極必衰)的現象,讓物質的個數呈現一種曲線狀的分布。

這種趨勢線圖,原始的物理意義在於描述特定物質個數隨著特定因素變化而變化,與當今社群媒體時代中事件在社群媒體上被討論的程度,在數學特徵上有些相似。

一篇刊登在Web Intelligence (Vol. 14, No. 1, pp. 17-29)的文章,題目Real-time, scalable, content-based Twitter users recommendation(基於內容的即時Twitter好友推薦模型),即用「馬克士威-波茲曼分布(Maxwell–Boltzmann distribution)」此一數學特徵,來描述Twitter用戶發文數量的分布,如下圖(Subercaze, J., Gravier, C., & Laforest, F. ,2016,  p.11):

  

這張圖的橫軸是推文的數量,縱軸是Twitter用戶數的百分比,主要在呈現相同期間內,大部分的用戶不會發表太多篇文章,只有少部分的用戶會發表極大量的文章;用戶百分比與推文篇數呈現出馬克士威-波茲曼分布。

然而,這篇文獻並未進一步用馬克士威-波茲曼分布的模型來描繪此種Twitter用戶發文數的趨勢分布。為了實做,本次導讀參考了另一篇發表於PTT的文章,作者用馬克士威-波茲曼分布來描述關鍵字在Google上搜尋次數分布圖(Google trend):

作者在套用馬克士威-波茲曼分布的數學公式之前,針對物理意義的不同而對數學模型做了修正。下圖為馬克士威-波茲曼分布原始的數學方程式:

作者則模仿此方程式,將原始物理意義中的空氣分子以關鍵字的被搜尋次數代入;影響空氣分子個術的變數原為速度與溫度,在這裡則改變為時間,因此方程式修正如下:

A為趨勢圖幅度的調整權重,a是竄紅指數,b是淡忘指數,t是以月為單位的時間變數,c是初始參數(設定為關鍵字竄紅之前的平均被搜尋次數),exp為指數函數(不動點,值為2.71828…)。

依據此方程式,畫出一條能呈現前面的「神魔之海」在Google上被搜尋的次數分布的趨勢圖;也就是說,把真實地被搜尋次數代入方程式,進行data fitting,找出能代表「神魔之海」在Google上被搜尋的次數的分布模型。最後會得出下圖,藍線為原始的Google被搜尋次數分布,綠線為經過data fitting後所得的Google被搜尋次數分布曲線:

畫出綠色的線,也就等同於找出了能代表「神魔之海」在Google上被搜尋的次數的分布模型。根據此模型,「神魔之海」在Google上的竄紅指數a為0.95853676、淡忘指數b為0.00411。

這樣的動作重複進行,可以觀察出不同個案的竄紅指數、淡忘指數差異,進行不同案例之間的比較:

最後,作者進行多部台灣動漫作品在Google上被搜尋的次數的比較研究,用Google搜尋次數來呈現這些作品之間的竄紅程度與被大眾遺忘的程度,並進行比較:

實做

根據網友Angus Fang,使用R軟體中的非線性迴歸建模函數「nls」,將前述描繪Google上被搜尋的次數的方程式轉換為r code:

F(t)=X^a*exp(-b*X^2),X為時間(以月為單位),a為竄紅指數,b為淡忘指數,因方便計算而省略方程式中的趨勢圖幅度調整權重與初始參數。

設定好方程式後,使用非線性迴歸建模函數「nls」,將實際個案在Google上被搜尋的次數代入方程式,讓程式解出a與b的值。

匯入原始資料的程式碼如下:

rawData<-read.csv("TowerOfSaviors.csv",header=TRUE,sep=",") 

#rawData<-read.csv("happyFarm.csv",header=TRUE,sep=",")

使用非線性迴歸建模函數「nls」的程式碼如下:

objectiveFunction <- function(X,a,b) {X^a*exp(-b*X^2)}

model <- nls(rawData$value~objectiveFunction(rawData$month,a,b),data=rawData,start=list(a=0,b=0))

算出a與b的值之後,在r中畫出圖形:

summary(model)

plot(rawData$month,rawData$value,type="l",col="blue",lwd=1)

lines(rawData$month,predict(model),col="green",lwd=1)

與本研究問題意識相關的概念與延伸對話:

l   參考馬克士威-波茲曼分布的概念,描繪特定事件在Twitter上不同時間被討論的聲量趨勢漲跌程度,並以竄紅程度、淡忘程度的統計量進行不同事件之間的比較

l   導讀含統計模型的論文時,若能實際以真實數值代入進行驗算,有助於我們將相關模型納入研究方法中

l   馬克士威-波茲曼分布的原始物理目的主要在處理「單峰」的物理量變化現象。若要套用在有多次起伏的社群媒體事件,應對模型加以修正,或是改進行多次的單峰計算。

延伸閱讀:(請用學術體例將參考文獻中值得延伸閱讀之文章、書籍或網址列於此處)

 

資料狀況:

■電子檔(摘要/全文):           

□ 紙本(摘要/全文):           

□ 其他狀況:           

如有重要相關圖表及附件請附在本頁後面,並在「其他狀況」項目內註明,如:附圖二張。

 

描述聲量趨勢的漲跌程度-馬克士威-波茲曼分布(Maxwell–Boltzmann distribution).docx