データのそうじ

ホーム > 図書館 > 没年調査 > データのそうじ / 人名データのマッチング / 貧者の横断検索 / 栗塚竜子 / 2023年 / 2024年 / 2025年

著作者データ

国会図書館の「著作者情報公開調査」では、調査対象の著作者のデータを、Excelの表計算型式でダウンロードできる（公開調査著作者リスト.xlsx）。

このExcelファイルには「公開調査著作者リスト」というシートがあり、シートにある項目名は次のとおり（※1）。

著者ID

国立国会図書館典拠データ検索・提供サービスのURL

著作者名

生年

没年

表記のゆれ

この中で一番大事な項目は著作者名だが、これがくせ者。原本に忠実にということなのか、あるいはデータの作成時期が関係するのか、漢字の字体が新字体だったり旧字体だったり、あるいは異体字だったり、まちまち。いわゆる「表記のゆれ」問題。たとえば、「斉藤」と「齊藤」、「斎藤」と「齋藤」。間違い探しみたいだけど、「郎（U+90CE）」と「郞（U+90DE）」なんてのもある。

で、こうした表記のゆれがあると、データを並び替えたり、他の人名データとマッチングするときに困ってしまう。世の中にはこうした問題で苦しんでいる人がたくさんいて、旧字体や異体字を新字体へ変換するためのテーブルがいくつも公開されている。これらのテーブルを比べた結果、漢字データベースプロジェクトの異体字データベースから、常用漢字表異体字（joyo-variants.txt）と、旧漢字（jp-old-style.txt）のテーブルをダウンロードして加工し、字体の変換表を作成した。

さらに、perlの Lingua::JA::Mojiで使われている変換表（new_kanji2old_kanji.txt）もマージして、perlのプログラムで変換のテストをしてみた。すると、「辨」と「弁」の相互変換は可能だが、「辨」「辧」「瓣」「辮」「辯」「辦」のすべてを「弁」にするといった多対一の変換はダメだった。そのため、多対一の部分は別の方法で変換することにした（※2）。

で、国会図書館の著作者データの著作者名からマッチング用の変換データを作成して、他の人名データも同じ方法で変換して、マッチングしてみた。その結果、マッチング用のデータは、「齊」を「斉」、「齋」を「斎」に変換するより、「齊」、「斉」、「齋」を全部「斎」にしてしまったほうが、見落としが少なくなるんじゃないかと思い、変換方法はさらに複雑になった。いっそ、「己」「已」「巳」のような間違いやすい字も変換しようかとも考えたが、やりだすときりがないので取りやめた。

重複調査

さて、著作者名を新字体に変換してExcelのリストに追加し、その新字体人名でソートすると、字体は違うが、実は同姓同名という著作者がいくつもみつかった。国会図書館の場合、万単位の本を複数の人が手分けして作業していただろうから、そうしたずれが発生するのは仕方ないのかもしれないが、放置しておく手はない。内容を確認して、同一人物と思われるものを何人も報告した。没年調査とは少し異なるが、調査対象者の数を減らすことには貢献できたと思う。

2023年3月19日作成/2023年3月31日修正

注

※1 以前はExcelファイルの中に「リストの項目について」というシートもあって、項目名に対応する説明もあったのだが、2022年12月に「著作者情報公開調査」のサイトがリニューアルしてからは、なくなってしまった。興味のある方は、Internet Archiveに保存された「著作者情報公開調査」から [chosakusha.xlsx] をダウンロードしてほしい。

※2 「辺」の異体字はもっとたくさんあって、24種類の「辺」の字で神経衰弱をする「渡る世間はナベばかり」というカードゲームがあるぐらいだが、実際によく使われるのは「邊」と「邉」の2つらしい。

ホーム > 図書館 > 没年調査 > データのそうじ / 人名データのマッチング / 貧者の横断検索 / 栗塚竜子 / 2023年 / 2024年 / 2025年