探索的ビッグデータ解析と再現可能研究

近年、「ビッグデータ」という用語が社会的にも定着してきたものと思われる。しかしながら、規模の大きなデータをどのように実際に処理し解析がなされているかの詳細については、知られていないことも多いように思われる。このワークショップでは、規模の大きな様々なデータに対して、再現可能性を保ちながら前処理・可視化・統計モデリングを探索的データ解析にもとづき行うことを、具体的かつ詳細に紹介することによって、同様の問題に直面している人々にとって有益と思われる情報を共有することを目的とする。

日時: 2023年8月27日(日) 10:00〜17:00

開催場所: Zoomウェビナーによるオンライン開催 (リンク情報は参加申込をされた方に後日お送りします)

参加申込: ここから登録をお願いします

講演者 (あいうえお順, 敬称略):

講演プログラム:

9:50-10:00 オンライン接続確認 (開会挨拶: 川崎能典)

10:00-11:00 「次の一歩を踏み出すためのtidyverse入門」(瓜生真也)

11:00-12:00 「探索的財務ビッグデータ解析による世界の企業行動の実態」 (地道正行, 阪 智香)

12:00-13:00  お昼休み

13:00-13:30 「財務ビッグデータ解析のためのデータ形式及びツールに関する検討」(宮本大輔)

13:30-14:00 「SQLを用いた大量データ分析: GPUによる高速化アプローチ」(海外浩平)

14:00-14:30  「アマゾンウェブサービスとDaily TAQデータ」(小池祐太)

15:00-16:00 「Rとシェルを用いた大規模な生物医学データ処理」(植木優夫)

16:00-16:30 「医療用ビッグデータの前処理: ソーシャルメディア編」(荒牧英治)

16:30-17:00 「医療用ビッグデータの前処理: 病院データ編)(西山智弘)

ワークショップで利用するソフトウェア環境:

OS: macOS, Ubuntu, Windows

Unix shell: bash, zsh

Unix Commands and Tools: sed, perl, awk, etc.

Data Analysis Environment and Integrated Development Environment: R, RStudio

R Packages: tidyverse, plotly, GGally, sn, xtable, knitr, etc.

Reproducibility: knitr, Sweave