05 語長によるテキストの構造解析

水口毅(大阪公立大),鈴木岳人(青山学院大)

自然言語によるテキストは,各言語に固有な単語群からなる複雑な系である.そのため,異なる言語のテキストの構造を特徴付け,比較・分類するためには,個々の言語に依存しない方法が望ましい.単語の出現頻度とそのランクに着目した解析はその一例であり,両者の間に成立する関係を表したZipf則は様々な言語に共通に見られることが知られている.今回我々は,単語をその語長に変換することで生成される数列を解析する.