オープンデータセット(Open Data Sets)

橋本洋志創造技術専攻産業技術大学院大学)による講義「データサイエンス」で用いるデータセット


下記の分類に誤りがあれば,知らせてください。


【分類1】

Pythonプログラムから,ネット経由で直接読込めるデータセットを有するサイト


【分類2】

オープンデータとして,CSVファイル,EXCELファイルを提供している


【分類3】

オープンデータとして,画像データ(イメージデータ)を提供している。

この利用は,サイトから何らかの方法で画像データをダウンロートする。


【分類4】

PDFなど,直接利用はできないが,オープンデータとして提供している。


【本サイト独自】

幾つかのデータを,授業で用いるために,本サイトにアップしている。よって,

URL="https://sites.google.com/site/datasciencehiro/datasets"

の後に,アップしたファイル名を記述すれば,ネット経由で直接Pythonプログラムから読むことができる


【分類1】

Kaggle   

The Home of Data Science & Machine Learning

世界最大のデータサイエンティストコミュニティを形成し、データ分析やモデル開発のコンペティション(賞金付きもある)を行うサイトである。Kaggle(米国)が運営。無料ユーザ登録よりデータを無料でダウンロードと使用ができる。また,ユーザ登録無しで利用する手段もある。

  • https://www.kaggle.com/
  • 一部を紹介する
  • Titanic  (Amazon S3にある) 
    • titanic_url = "http://s3.amazonaws.com/assets.datacamp.com/course/Kaggle/train.csv" 
    • data = pd.read_csv(titanic_url)
  • MLB dataset 1870s-2016 https://www.kaggle.com/timschutzyang/dataset1
    • プログラムから直接は得られないので,上記のサイト -> [Data] に移り,[Download]をクリックすると,データやプログラムを一括ダウンロードできる。

UC Irvine Machine Learning Repository

カリフォルニア大学アーバイン校(University of California, Irvine)が運営,機械学習やデータマイニングに関するデータの配布サイト

日本語説明サイト:

内容

scikit-learn Datasets Package

scikit-learnには教師データとなるデータセットがサンプルで用意されている。

scikit-learn comes with a few small standard datasets that do not require to download any file from some external website.

load_boston([return_X_y])Load and return the boston house-prices dataset (regression).
load_iris([return_X_y])Load and return the iris dataset (classification).
load_diabetes([return_X_y])Load and return the diabetes dataset (regression).
load_digits([n_class, return_X_y])Load and return the digits dataset (classification).
load_linnerud([return_X_y])Load and return the linnerud dataset (multivariate regression).
load_wine([return_X_y])Load and return the wine dataset (classification).
load_breast_cancer([return_X_y])Load and return the breast cancer wisconsin dataset (classification).

These datasets are useful to quickly illustrate the behavior of the various algorithms implemented in the scikit. They are however often too small to be representative of real world machine learning tasks.

使い方
  from sklearn import datasets
  iris = datasets.load_iris() # サンプルデータ読み込み


StatsModels Datasets Package

Python 統計解析パッケージStatsMoldelsが提供するデータセット。Rdatasetsプロジェクトが提供するデータセットを利用している。Titanic, アヤメの他に,フランスの道徳統計に関するエッセイなどがある。

  • http://www.statsmodels.org/dev/datasets/index.html
  • Rdatasets Project http://vincentarelbundock.github.io/Rdatasets/
  • 例 : 次はフランスの道徳統計に関するエッセイ("Essay on the Moral Statistics of France")の統計データの取得

import statsmodels.api as sm

df = sm.datasets.get_rdataset("Guerry", "HistData").data

   この意味は,http://vincentarelbundock.github.io/Rdatasets/datasets.html の中の
   Package名が”HistData",Item名が”Guerry",データが”CSV”,説明が”DOC"にある。

Seaborn data

Python Seabornのサンプルグラフ描くために用意されたサンプルデータセット(数はわずか),kaggleのTitanic,Rのアヤメ統計データ,お店の食事時間と会計総額とチップの関係のデータなどがある。

import seaborn as sns

titanic = sns.load_dataset("titanic") 

tips = sns.load_dataset("tips")

iris = sns.load_dataset("iris")



R(統計解析向けのフリーソフトウェア)のデータセット
内容(一部)
  • Titanic タイタニックの乗客の生死のデータ
  • UCBAdmissions  1973年の,カリフォルニア大学バークレー校への入学志願者について,6つの学部別,性別の合否結果
  • cars 車の速度と停止距離(1920年代のデータ)
  • iris  フィッシャーの(または,エドガー・アンダーソンの)として知られる,有名なアヤメのデータ
  • mtcars 1974年の「Motor Trend」誌から抽出した32車種の,燃費の他,デザインなどの評価データ
  • sunspot.month 1749〜1997年の月別太陽黒点数

RのMASSパッケージ(サンプルデータ)

IPythonデータサイエンスクックブック この本で用いられているデータセット



【分類2】



総務省統計局

http://www.stat.go.jp/data/kakei/index.htm

      他にも多種のデータがある


総務局統計局 なるほど統計学園 

子供向けであるが,データが豊富で使いやすい! サッカーW杯もある


政府 e-Stat

日本の統計が閲覧できる政府統計ポータルサイト



気象庁 国土交通省



富山県人口移動調査
富山県の人口・世帯数・人口密度・出生者数・死亡者数・老年人口割合・年少人口割合に関するデータ
  • http://www.pref.toyama.jp/sections/1015/lib/jinko/
    • 注意:ここにあるExcelデータを用いるとき,上記のURLに付け加える必要がある。
    • 例えば,jinko_dat005.xlsにカーソルを当てると --/jinko/_data_h29/jinko_dat005.xls のURLが見える
    • 参考までに,H28.10.1 - H29.9.30 調査の jinko_dat005.xlsを本ページアップした。
  • TOYAMA OPEN DATA   http://opendata.pref.toyama.jp/


DeepAnalytic  

我が国におけるデータサイエンスコンテストを民間企業が主催。


東京電力 過去の使用量

【分類3】


The USC-SIPI Image Database  

南カリフォルニア大学(USC),信号・画像処理研究所(SIPI)が提供する画像データセット。この内容は,世界標準で扱われるTextures(テクスチャ)、Aerials(航空写真)、Miscellaneous(レナ、ヒヒなど)、Sequencs(顔や車の動きの連続写真)がある。

ImageProcessingPlace.com  

有志の集まりによる運営で,上記の画像データセットに加えて,プログラムも提供する画像データセット。

USGS  Aerial Photography  

米国国歌機関であるEROS(The Center for Earth Resources Observation and Science)による,航空写真データセット


上田市イメージデータベース  

上田市にある写真・映像・PDF資料を提供するサイト

長崎大学電子化コレクション  

長崎大学が提供するサイト,幕末・明治期の日本の各種写真,ガラパゴス諸島画像データベース,などがある。







【分類4】



データセット一覧 : DoDStat@d



東京都オープンデータカタログサイト

東京都に関するデータ提供,および,アプリコンテストを行っている。


東京公共交通オープンデータチャレンジ

東京都の公共交通関連データ提供,および,アプリコンテストを行っている。

JEITA (一社)電子情報技術産業協会 電子工業生産実績,輸出入実績表

http://www.jeita.or.jp/japanese/stat/electronic/2013/index.htm



財務省貿易統計 日本の輸入・輸出


JETRO 日本貿易振興機構 統計ナビ


世界の人口が多い都市ランキング、トップ10


メッシュ農業気象データ 利用マニュアル


国土数値情報 

  • http://nlftp.mlit.go.jp/ksj/
  • 国土交通省 国土計画局により、鉄道、河川、海岸線など国土の骨格に関するデータを提供。ファイルフォーマットは、JPGIS形式やシェープファイル形式である。これを読み込み表示するソフトウェアはこのWebページにある。

みんなの地球地図 


全国市区町村界データ


データで楽しむプロ野球

  • http://baseballdata.jp/
  • 選手個人のデータ,例えば,カウント別のヒット率などを示されている。

2014年全6.6万打席の紹介|プロ野球データでクロス集計 with Tableau 第1回




【本サイト独自】

ċ
AirPassengers.csv
(2k)
captain hashimoto,
2018/07/24 22:36
ċ
AirTemperature.csv
(7k)
captain hashimoto,
2018/06/26 18:49
ċ
ElectricPower.csv
(184k)
captain hashimoto,
2018/06/26 18:49
ċ
FamilyIncome.csv
(0k)
captain hashimoto,
2018/06/23 16:04
ċ
InvestigationOfFamilyIncome2016.csv
(0k)
captain hashimoto,
2018/04/06 17:03
Ċ
captain hashimoto,
2018/08/05 17:02
ċ
Stock_7203.txt
(16k)
captain hashimoto,
2018/05/23 18:23
ċ
TEPCO_juyo-2017.csv
(184k)
captain hashimoto,
2018/04/09 17:45
ċ
TOKYO_temperature-2017.csv
(242k)
captain hashimoto,
2018/04/09 17:45
ċ
Wholesale_customers_data.csv
(15k)
captain hashimoto,
2018/02/09 17:22
ċ
^N225.csv
(7k)
captain hashimoto,
2018/05/30 17:03
ċ
data_Laundry.csv
(2k)
captain hashimoto,
2018/07/25 0:46
ċ
data_Radish.csv
(2k)
captain hashimoto,
2018/07/25 0:46
ċ
data_father_son_height.csv
(0k)
captain hashimoto,
2018/04/01 21:20
Ĉ
captain hashimoto,
2018/03/28 23:34
ċ
weather_items.csv
(1k)
captain hashimoto,
2018/03/23 17:15
ċ
winequality-red_mod.csv
(84k)
captain hashimoto,
2018/04/06 18:29
Comments