wekaを起動する-データマイニング


wekaを使用したデータマイニング入門


データマイニング(Data mining:Wikipedia)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。DMと略して呼ばれる事もある。

例えば、百貨店や電気量販店での顧客の購買行動を、ポイントカード等で把握し、分析する。

 「金曜日にはビールとおむつが売れる」とはデータマイニング(この場合バスケット分析)により取り出された知識(顧客の購買傾向)である。
また、amazonの「あわせて買いたい 」にみられるリコメンデーション。似たような購買をする人への書籍の推薦は記憶ベース推論による。


下には、データマイニングが取り扱う分析方法と、特徴、例など、概略表である(PPTのダウンロードはDM_Table.ppt)。

 

  • ソフトウェアに関して

データマイニングに関しては、フリーのソフトウェアwekaが有名である。これはwaikato大学で開発されたもので、無償で配布されている[5]。インストールやダウンロードは[1]にて日本語で解説されている。本格的な内容は[2]が詳しく、入門的な内容では、当サイト運営者のブログがある(内容は weka.pdf へPDF化しています;サイズは約2M)

 

  • 関連リンク

[1] weka-jp.info: Wekaの日本語情報
*ページ左の「資料庫」の「Weka入門(セットアップ編)」ではインストールに詳しい。
[2] データマイニング・WEKA(weka関して詳しいブログ)
[3] 朱鷺の杜Wiki-情報論的学習理論と機械学習に関するページ
*このページの中段「検索」にてwekaを検索すると、様々な情報が得られます。
[4] kdnuggets-マイニングのポータルサイト(英語)
[5] WEKA-Machine Learning Project(wekaの総本山)
[6] TeraPad-シンプルなSDIタイプのテキストエディタ ダウンロードページ(何かと使うテキストエディタ)
[7] wekaでは困難なマーケットバスケット分析を行うapriori programの使い方やダウンロード
[8] WEKA と樹木(決定木)モデルに関しての説明

 

用語集TOPへ戻る