探索的ビッグデータ解析と再現可能研究
近年、「ビッグデータ」という用語が社会的にも定着してきたものと思われる。しかしながら、規模の大きなデータをどのように実際に処理し解析がなされているかの詳細については、知られていないことも多いように思われる。このワークショップでは、規模の大きな様々なデータに対して、再現可能性を保ちながら前処理・可視化・統計モデリングを探索的データ解析にもとづき行うことを、具体的かつ詳細に紹介することによって、同様の問題に直面している人々にとって有益と思われる情報を共有することを目的とする。
日時: 2023年8月27日(日) 10:00〜17:00
開催場所: Zoomウェビナーによるオンライン開催 (リンク情報は参加申込をされた方に後日お送りします)
参加申込: ここから登録をお願いします
講演者 (あいうえお順, 敬称略):
荒牧英治 (奈良先端科学技術大学院大学 先端科学技術研究科 教授)
植木優夫 (長崎大学 総合生産科学域 情報データ科学部 教授)
瓜生真也 (徳島大学 デザイン型AI教育研究センター 助教)
海外浩平 (HeteroDB 代表)
小池祐太 (東京大学 大学院数理科学研究科 准教授)
阪 智香 (関西学院大学 商学部 教授)
地道正行 (関西学院大学 商学部 教授)
西山智弘 (奈良先端科学技術大学院大学 先端科学技術研究科 研究員(大学院生), 薬剤師)
宮本大輔 (東京大学 大学院情報理工学系研究科 准教授)
講演プログラム:
9:50-10:00 オンライン接続確認 (開会挨拶: 川崎能典)
10:00-11:00 「次の一歩を踏み出すためのtidyverse入門」(瓜生真也)
11:00-12:00 「探索的財務ビッグデータ解析による世界の企業行動の実態」 (地道正行, 阪 智香)
12:00-13:00 お昼休み
13:00-13:30 「財務ビッグデータ解析のためのデータ形式及びツールに関する検討」(宮本大輔)
13:30-14:00 「SQLを用いた大量データ分析: GPUによる高速化アプローチ」(海外浩平)
14:00-14:30 「アマゾンウェブサービスとDaily TAQデータ」(小池祐太)
15:00-16:00 「Rとシェルを用いた大規模な生物医学データ処理」(植木優夫)
16:00-16:30 「医療用ビッグデータの前処理: ソーシャルメディア編」(荒牧英治)
16:30-17:00 「医療用ビッグデータの前処理: 病院データ編)」(西山智弘)
ワークショップで利用するソフトウェア環境:
OS: macOS, Ubuntu, Windows
Unix shell: bash, zsh
Unix Commands and Tools: sed, perl, awk, etc.
Data Analysis Environment and Integrated Development Environment: R, RStudio
R Packages: tidyverse, plotly, GGally, sn, xtable, knitr, etc.
Reproducibility: knitr, Sweave