人名データのマッチング

方針

国会図書館は、没年がわからない著作者のデータを、Excelのデータで公開している。一方、ネットでは、さまざまな人名データが公開されている。この二つのデータを比較して一致するものを取り出すことで、没年調査が楽にならないか、というのがそもそもの発想。できれば、国会図書館の人があまりチェックしてなかった分野のデータがいいな。

まずは、国会図書館のリサーチ・ナビにある「人物文献(伝記など)を探す」から、郷土資料に目を付けた。

1) 北海道人物文献目録(明治~戦前期)は、PDFで公開されているので、ダウンロードしてテキストを抽出。

2) 千葉県関係人名索引、3) 石川県関係人物文献検索、4) 鳥取県郷土人物文献データベース(郷土人物検索)は、サイトからスクレイピングしてデータを抽出。

郷土資料以外にも、むかしの人名事典とか、いろいろなものが公開されている。

5) 国学関連人物データベースは、國學院大學にある国学者を中心としたデータ。サイトからスクレイピングしてデータを抽出。

6) 明治大正文学美術人名辞書は、リサーチ・ナビに目次データがあるので、コピーして加工。

7) 真宗人名辞典も、リサーチ・ナビに目次データがあるので、コピーして加工。

8) 現代仏教家人名辞典も、リサーチ・ナビ目次データがあるので、コピーして加工、という同じ手順を踏んだのだが、これがトンデモ。目次をOCRで読み取って作成されたと思われるデータなのだが、原書の目次は誤植満載、p601-621の目次は欠落、さらにOCRの読み取りミスもあって散々なありさま。図書館で同書の復刻版を借りてきて本文と照合し、目次の再作成をするハメになった。その成果は『現代仏教家人名辞典』インデックスで公開し、国会図書館にも報告したので、今はだいぶよくなったハズ。

9) 佛教年鑑 昭和7年版は、國立臺灣大學台灣佛教史料庫で全文を公開しているので、ダウンロードして「第七 人事篇」の部分を抽出。

以上の9つ以外にもいろいろ試したけど、省略。

手順

よそから取得したデータを整形して、人名とそれ以外の情報に分ける。人名の部分は「データのそうじ」で説明したように、マッチング用の新字体に変換。これを著作者データとマッチングして、一致したものを出力。

最初のころは、Excelのvlookup関数でマッチングして、一致したものから一つずつ報告用のテキストを作っていたが、その後、データをSQLiteのデータベースに入れてSQLでマッチングして、pythonのプログラムで報告用のひな型をテキスト形式で出力をするようになった。以下は、鳥取県郷土人物文献データベース(郷土人物検索)から取得したデータを加工して出力した例。

YQ00375393の安陪繁蔵は、

関連情報1に とあります。

著者関連資料「」の です。

安陪繁蔵の名は、とっとりデジタルコレクションの「安陪繁藏」に掲載されています。


人物名:安陪繁藏

別名:安陪繁蔵

生年(西暦):1888

活動分野:教育者(小学校訓導。中等学校教員。鳥取県立米子高等女学校長等)。


これをみると、安陪繁蔵の関連資料として「」が上げられています。


安陪繁藏(とっとりデジタルコレクション)

https://digital-collection.pref.tottori.lg.jp/search/detail?cls=lib_c201&pkey=0000329

これに「貧者の横断検索」を使って調べた結果を追加して、名前が一致し、数学教育という分野も同じなので、同姓同名の別人ではないだろうと判断して、こんな感じで国会図書館に報告した。

著者の情報 

YQ00375393の安陪繁蔵は、著者関連資料「代数学習ノ捷径」の著者です。

また、安陪繁蔵は、著者関連資料「幾何学擬試験問題撰要 : 数学受験・参考叢書」の著者の一人です。

安陪繁蔵の名は、とっとりデジタルコレクションの「安陪繁藏」に掲載されています。


人物名:安陪繁藏

別名:安陪繁蔵

生年(西暦):1888

活動分野:教育者(小学校訓導。中等学校教員。鳥取県立米子高等女学校長等)。


これをみると、安陪繁蔵の関連資料として「鳥取縣名士百傳」「帝國現代人物誌 續編」「因幡人事興信録(昭和12年)」が上げられています。

「因幡人事興信録」のp219に、安陪繁蔵の項があります。

それによると、安陪繁蔵は鳥取県立米子高等女学校長で、明治21(1888)年生まれ、著書に「幾何学擬試験問題選要」「代数学捷経」「新算術上中下」「新数学教科書」等とあります。

「鳥取県公報」の昭和27年1月29日, 2281号のp14、市選挙管理委員会委員の項に「鳥取市 安陪繁藏」とあるので、この時点では存命だったようです。

情報源

代数学習ノ捷径

https://dl.ndl.go.jp/info:ndljp/pid/1275846/208

幾何学擬試験問題撰要 : 数学受験・参考叢書

https://dl.ndl.go.jp/info:ndljp/pid/986176/4

安陪繁藏(とっとりデジタルコレクション)

https://digital-collection.pref.tottori.lg.jp/search/detail?cls=lib_c201&pkey=0000329

因幡人事興信録

https://dl.ndl.go.jp/info:ndljp/pid/1029964/140

鳥取県公報

https://www.pref.tottori.lg.jp/secure/658159/2281.pdf

結果

あちこちから取得した9つのデータの総計は93,796件で、人名が一致したのは1,382件。それを1件ずつチェックして、国会図書館に報告できたのは425件。その内訳は、没年判明したものだけでなく生年のみ判明したもの、すでに没年が判明していた人物の別名だったなど、さまざま。歩留まりがいいかどうかわからないが、闇雲に調査するよりは効率的だったと思う。また、同じような分野の人物を何度も検索していると、ヒットする資料も似たようなものが何度もでてくるので、学習効果というか、目が慣れて要領よくチェックできるようになったと思う。

2023年3月19日作成/2023年5月27日修正