東京工業大学の市川と申します. 同じく東京工業大学の出口弘教授とともにFalconSeed Liteと呼ばれる, ビックデータからある条件を満たしたレコードを抽出・削除・結合など 加工ができるツールを開発いたしました. そのツールを,この東日本 ビッグデータワークショップにご参加の方にも 提供しようということになり,ここにメールにて公開の旨をご報告させていただきます. とくに,このプロジェクトで提供されたデータをダウンロードしたものの, 加工技術を持ち合わせてなく,どうファイルを開いたらよいか悩んでおられる方には, 非常に有用なツールかと思います. たとえば,JCCさんのCMのデータからACの広告の情報だけを抽出するといった データ加工は,よくあるパソコン操作で実現できます. われわれは,Twitterの全データ(約26GB)から,あるキーワードを含む つぶやきだけを抽出する.といった用途に用いてます. たとえば,「SPEEDI」という言葉をふくむつぶやきを抽出するのに, 利用したりしております. 時間がなく,マニュアルまで用意することができていませんが, 利用法を示す動画を作成しましたので,そちらを参照の上, ご利用方法をいただければと思います. 動画は,FalconSeedを使って研究室内のほかのプロジェクトに参加する メンバーに教える際に,録画したものですので,説明の口調などについてはご理解ください. 何がご質問がありましたら,ご連絡をいただければと思います. (後ほどプロジェクトとして独立させたいと思います) なお,FalconSeed Liteを稼働させるには,JAVA1.6以降が必須となります. Oracleよりダウンロード,JAVAをインストール後にご利用ください.
Falconseedをダウンロード希望のかたは,下記からダウンロードできます.
Falconseedに関する問い合わせは、下記までお願い致します。
東京工業大学・出口研究室 045−924−5421
出口弘 deguchi[at]dis.titech.ac.jp
市川学 ichikawa[at]dis.titech.ac.jp