WEBスクレイピング-1

GASスクレイピングに便利なParserライブラリの利用

図は東証プライム市場の「花王」(銘柄コード4452)の日本経済新聞のサイトの確定後の一例です。このサイトの情報をスクレイピングします。

日本経済新聞の株価サイトは https://www.nikkei.com/nkd/company/?scode=4452  で一番後ろに銘柄コード(花王:4452)を追加することで全東証銘柄の情報を表示することができます。

銘柄コードを手掛かりとして日付・銘柄名称・現在値(終値)・前日比・前日比率・始値・高値・安値・売買高(出来高)・予想PER・予想配当利回りを取得してみます。他にも情報はありますが、ここでは取得しません。一部データをシート上で計算するものがあります。

データを取得するには、ページのHTML情報を取得する必要があります。サイトのページは一定の規則で構成されているのでその規則性から目的のデータをスクレイピングします。

HTML情報をコピー

Google Chromeブラウザで目的のページを開き、F12キーを押すと右側にHTML情報が表示されます。HTML情報の上でマウスを動かすと左側の画面の色が変わるので[CONTENTS_MAIN}タグの所を探します。

[CONTENTS_MAIN]タグを右クリック→[Copy]→[Copy element]をクリック

コピーしたHTML情報を別のドキュメントに貼り付けます。そこから必要なデータのある部分を探します。

HTML情報で株価データを抜き出すための必要な部分を下記に示します。

スクレイピングで抽出するデータ部分は緑色で、抽出の手掛かりとなる前後のタグを黄色で示します。

株価情報を取得するマクロ[Nikkei_StockDataScraping]をの次ページ以降で個々に分解して説明します。スクレイピングする方法は同じですが、データを返すまとめ方が2つあります。最初はオブジェクト集合体でまとめる例を説明します。この方法は公開中の「日経225銘柄株価データ取得」ソフトの方法とほぼ同じものです。