May be youf first time to heard the word embedding . We say use a really simple way explane what's is going on.
word embedding 在NLP領域就是要把文字做出一個轉換,把文字轉換成一個表達式,讓我們可以了解到文字之間的關係,目前會使用機率,matrix, neural networks 等方法。
因為再出現自然語言模型之前人類是如何讓機器去讀懂人類的語言,大概有三個階段,因為各個階段都有需要改進的地方所以,就有更多的方法持續地去被提出
Mapping a value to other value func (a)=b
At first we build a one dimation array(table) to fullfill all the value we have.
It's a way to translation the value we want the machine able to know .
但是這個方法我們無法有效了解文字之間的關係,只是暴力把文字轉換成為一個矩陣的表達式,來呈現給我們。
Word Class
把詞彙去做分類,把類似的字句拉在一起,所以今天相同的文字就會被分在一起。
但是這個方法也許因為class1中的dog &bird 還是有些許的差距,這樣在做分類任務的的時候就不夠詳細。
所以進而產生了Word Embedding,解決了文字與文字之間是否有關係。
Word Embedding
是一種將詞彙投影到高維度空間的方式,但它的維度依然遠比1-of-N的編碼方式來的低,也許50維,也許300維,但比起10萬維還是低了許多。我們希望在Word Embedding上看到相關的詞彙是接近的,dag& cat 都是哺乳類動物所以他們在向量上的距離是會比較接近的。
一個話語他可以代表多個意思,他看起來文字都是一樣的,但是其實他都有些許的差異,但早期的word Embedding相同文字就是有相同的Embedding,
但是並不能讓這個文字代表其他意思。
觀察語句的上下文並且瞭解到他們的Embedding
今天他們上下文越接近就會越接近的word Embedding.所以我們今天要給每個word 去知道他們之間的距離