Ver. 4.6.1で、CSV/TSVファイルやフォルダから、すぐにプロット表示・分析を始められるワンタッチな設定機能「ファイルから登録 」が追加され、Ver. 4.7.0ではワンタッチなインストール機能で簡単にインストールでき、Functionでデータ編集が出来るようになりました。
DN7を初めて使う方向けのチュートリアルです。様々な使い方が記載されていますので、中級者の方にも活用いただけるかもしれません。説明の中でAPと書いてあったらAnalysis Platformのことです、あしからず。
チュートリアルの題材として、データサイエンスで有名なタイタニックのデータセットを使います。データ分析コンペなどでも使用され、ネットで入手できる有名なデータセットです。
このアプリのチュートリアルに合うようにデータを少し加工しています。アンダーバー"_"が入っている変数は細工した変数なのでオリジナルのデータにはありませんが、なるべく元の情報を反映するように加工してあります。ファイルはあえて二つに分けてあります(データ紐付けのデモに使います)。
titanic_list_1/2.csv 乗客のリストですが、更にわざと2つに分けてあります。(list_1:Firstクラスのみ323名, list_2:その他のクラスの乗客986名)
titanic_result.csv 生存したか、どの救命ボートに乗ったかの情報、1309名分。ここにある日時は適当に生成したものです。
※チュートリアルに使いやすいように加工した列を作ったり、一部の外れ値を除いたりしているので、ちゃんとしたデータセットを使いたい場合は別途入手してください。
このチュートリアルで使用するdatasetはこちらから入手できます titanic_list_1.csv titanic_list_2.csv titanic_result.csv
使用するCSVを用意します。それぞれのCSVをフォーマット毎にフォルダに格納してください。
DN7では、データの列名が異なるCSV(フォーマットが異なるデータ)毎にフォルダを作らないといけません。列の構成が同じであれば、ファイル名を日付などの連番的なものにして、複数のファイルを同じフォルダに保存していただければそれらを自動的に結合してくれます。
今回の例では、2つの異なるフォーマットのCSVを、それぞれ、Titanic_MainとTitanic_Resultというフォルダに格納しました。
サイドバーの[設定]→[データソース設定]を選択します。
データソース設定の追加ボタン(緑のボタン)を押すと、新規登録枠が表示されます。
※ 既に入っている設定はデモデータ用の設定です。使い方に慣れたら消していただいて結構です。
(元のCSVは残っていますが設定は失われるので自力でしか復活できなくなります。復活させたい場合は、別途、新規のAP+DN7を見るのがいいと思います)
※ データソース設定にある[更新周期]は[一度だけ]にしないでください。後述する自動更新が動かなくなります。
[データソース種類]は[csv/tsv]を選択し、編集ボタンを押します。
先ほどファイルを格納したフォルダのパスをエクスプローラからコピーします。
[CSV/TSV読み込み画面]の[参照先]に入力し、接続を押すと
パス名などが正しく、CSVファイルが一つでも存在すれば、「接続可能です」と表示されます
何かしら問題がある場合はアラームが出ますので、フォルダやファイルが本当にあるか、パスが正しいかなど確認してください。
データソース名は自動入力されますが、手動で変更もできます。(このチュートリアルではそのままでお願いします)
問題ない場合は[プレビュー]ボタンを押します。
CSVの中身を確認します。
(今回はファイル名の関係でlist_2が表示されています。pclass[ 旅客クラス]が2のものが表示されているのが分かると思います。この確認画面はファイル名が最も新しいもの[もしくは含まれている番号が大きいもの]を表示しますので、"titanic_list_1.csv"ではなく"titanic_list_2.csv"の中身ががプレビューされています)
問題なければ[OK]で登録します。
CSVが表示されない場合は未対応のフォーマットかもしれませんので、必要に応じてCSVを整形して再度読み直してください。ヘッダが複雑なもの、縦持ち(Long)データのCSVなどには対応していません。
次にその下にある工程設定を行います。サイドバーの[設定]→[工程設定]と遷移しても大丈夫です。
データソース設定と同様に追加ボタン(緑のボタン)を押すと、新規登録枠が表示されるので編集ボタンを押します。
データソース名に先ほど登録した"Titanic_Main"(こちらではデータソースに登録されたものだけが選択肢になります)を選択します。
工程名が自動的に入力されますが手動で変更もできます。
(このチュートリアルではそのままでお願いします)
[プレビュー]を押すと、再度データテーブル(CSVの中身)が表示されます。
[☑すべて選択]をチェックしてください。
(普段のご自身のデータの場合は使用する列だけ選択で結構です)
この際にCSVの各列のデータの型を自動推定してくれます。間違えている場合は、正しい型に変更してください。
(このチュートリアルではそのままでお願いします)
シリアルとして使用する"id"の[☑紐付ID]にチェックしてください。
日次データとして使用する"date_reg"の[☑日時]にチェックしてください。
表示名は本来任意ですが、あまり長くなるとグラフ表示などで見難くなるので、普段から、なるべく短めの名前にしていただいた方がいいです。
このチュートリアルでは順番に以下としてください。
id 旅客クラス 乗客イニシャル 性別 年齢 同乗兄弟配偶者 同乗親子供 チケット桁数 チケット下位 運賃 船室位置 出港地 日時(id順)
なお、後ほどラベルプロットという機能を使いますので、以下のデータの[順序設定]という列に☑チェックを入れてください(これを選んでおかないと後ほどラベルとして選択できません)。
旅客クラス 乗客イニシャル 性別 出港地
※ 必要に応じて、[編集モード]を押すと、Excelとのデータの授受がコピペでできますので、変数などが大量な場合は、Excelで編集後、コピペで入力しデータを更新することができます。
入力が終わったら、[データ読込]を押すと、データが読み込まれます。
今回の場合"Titanic_Main"フォルダにある、"titanic_list_1.csv"と"titanic_list_2.csv"が順次読み込まれて一つのデータテーブルに統合して取り込まれます。
実際の工程では、日付などがファイル名に入ったCSVが日々生成されていると思いますが、プロット画面で自動更新([日時]の横の[最新]を選択)すると、ファイルがフォルダに保存されると自動的に追加のデータの呼び出しを行います。追記型のファイルも、最も新しい名前(ファイル名に含まれる番号が大きいファイル)のファイルへの追記であれば、追記分のみ差分読み出しします。
次に、同じ様に、Taitanic_Resultのデータソース設定と工程設定を行ってください。
まず、データソース設定を行います。(説明省略)
次に工程設定を行います。
[☑すべて選択]で、データの型は自動推定のままにしてください。
シリアルとして使用する"id"の[☑紐付ID]にチェックしてください。
日次データとして使用する"date_time"の[☑日時]にチェックしてください。
表示名はこのチュートリアルでは順番に以下としてください。
id 日時 生存状況 救命ボート
単独のフォーマットしかないCSVを解析する場合はスキップしてください(紐付け不要)。
複数のフォーマットのCSVを統合する場合:
次にデータの紐付けを行います。
紐付設定画面で、[編集]ボタンを押します。
さらに、[紐付けを追加]ボタンを押します。
先ほど登録したTitanic_Mainを見つけ、そこを起点にドラッグすると矢印が生成されますので、Titanic_Resultの場所にドロップします。
(Titanic_Mainで右クリックをしても同じ画面が出せます)
まず、紐付けの編集を行います。
異なるCSVフォーマット同士のTitanic_MainとTitanic_Resultをどの列のシリアルIDを用いてデータ結合するかを設定します。
今回は両方のデータにそれぞれidという列があって、乗客のシリアル番号が入力されているので、それ同士を紐付けします。乗客名簿があって、氷山に衝突した後の結果の順なので、前工程にTitanic_Main、後工程をTitanic_Resultとします。
実際の工程では、製品や部品のシリアル番号を使用することになります。このIDによって個体識別を行います。
今回は、ダイアログで自動的に推測してくれたid同士が選ばれているので、このまま{OK}します。列選択が間違っている場合は手動で訂正してください。
まず、紐付けの編集が終わったら、適宜[紐付け予測]を押して、どの程度データが紐付けされるか確認しましょう。マウスカーソルをノードやエッジに添わせるとリンク数の予測値が表示されます。なお、この機能では一部のデータのみで高速予測を行うのでおおよその数字です。従って、0(全く紐付けされない)や極端に少なくなければ問題ないと考えてください。
全ての紐付けの設定が終わりましたら、[登録]を押します。
登録処理に少し時間がかかることがありますが、登録後は、表示されるリンク数などは正確な数字(接続したデータに基づく実測値)になります。
通常は、工程系統図のように投入工程から出荷工程までを数珠つなぎに紐付けしていくのが本来ですが、一度途中の工程でデータ欠損が起こるとそこから先の工程データは全てリンクしなくなります。工程でデータ欠損が多い、という場合はデータのロスが深刻になりがちですので、場合によって回避策として、投入工程(一番全ての製品のIDが揃っている工程)から各工程に直接接続するスター型の紐付けを行ってください(背反はありますが、欠損の連鎖が発生しないので最もデータを残せます)。
予測の際は数字が少し怪しかったですが、登録するとすべてのデータが紐付けできたようです。
通常の工程データでは紐付けできないデータが存在することがあります。あまりにも紐付け数が少ないときは分析が難しくなるのでデータを見直すか、紐付け設定を工夫しましょう。
以上で、データを見るための準備が整いました。