データのそうじ
著作者データ
国会図書館の「著作者情報公開調査」では、調査対象の著作者のデータを、Excelの表計算型式でダウンロードできる(公開調査著作者リスト.xlsx)。
このExcelファイルには「公開調査著作者リスト」というシートがあり、シートにある項目名は次のとおり(※1)。
著者ID
国立国会図書館典拠データ検索・提供サービスのURL
著作者名
生年
没年
関連情報1
関連情報2
NDCの傾向
NDC(3桁デコード値)の傾向
出版地の傾向
関連する書誌データ数
関連する書誌データ(原資料のNDL書誌ID_タイトル_版表示_著者_出版者_出版地_出版年_調査対象者の役割)
表記のゆれ
この中で一番大事な項目は著作者名だが、これがくせ者。原本に忠実にということなのか、あるいはデータの作成時期が関係するのか、漢字の字体が新字体だったり旧字体だったり、あるいは異体字だったり、まちまち。いわゆる「表記のゆれ」問題。たとえば、「斉藤」と「齊藤」、「斎藤」と「齋藤」。間違い探しみたいだけど、「郎(U+90CE)」と「郞(U+90DE)」なんてのもある。
で、こうした表記のゆれがあると、データを並び替えたり、他の人名データとマッチングするときに困ってしまう。世の中にはこうした問題で苦しんでいる人がたくさんいて、旧字体や異体字を新字体へ変換するためのテーブルがいくつも公開されている。これらのテーブルを比べた結果、漢字データベースプロジェクトの異体字データベースから、常用漢字表異体字(joyo-variants.txt)と、旧漢字(jp-old-style.txt)のテーブルをダウンロードして加工し、字体の変換表を作成した。
さらに、perlの Lingua::JA::Mojiで使われている変換表(new_kanji2old_kanji.txt)もマージして、perlのプログラムで変換のテストをしてみた。すると、「辨」と「弁 」の相互変換は可能だが、「辨」「辧」「瓣」「辮」「辯」「辦」のすべてを「弁 」にするといった多対一の変換はダメだった。そのため、多対一の部分は別の方法で変換することにした(※2)。
で、国会図書館の著作者データの著作者名からマッチング用の変換データを作成して、他の人名データも同じ方法で変換して、マッチングしてみた。その結果、マッチング用のデータは、「齊」を「斉」、「齋」を「斎」に変換するより、「齊」、「斉」、「齋」を全部「斎」にしてしまったほうが、見落としが少なくなるんじゃないかと思い、変換方法はさらに複雑になった。いっそ、「己」「已」「巳」のような間違いやすい字も変換しようかとも考えたが、やりだすときりがないので取りやめた。
重複調査
さて、著作者名を新字体に変換してExcelのリストに追加し、その新字体人名でソートすると、字体は違うが、実は同姓同名という著作者がいくつもみつかった。国会図書館の場合、万単位の本を複数の人が手分けして作業していただろうから、そうしたずれが発生するのは仕方ないのかもしれないが、放置しておく手はない。内容を確認して、同一人物と思われるものを何人も報告した。没年調査とは少し異なるが、調査対象者の数を減らすことには貢献できたと思う。
2023年3月19日作成/2023年3月31日修正
注
※1 以前はExcelファイルの中に「リストの項目について」というシートもあって、項目名に対応する説明もあったのだが、2022年12月に「著作者情報公開調査」のサイトがリニューアルしてからは、なくなってしまった。興味のある方は、Internet Archiveに保存された「著作者情報公開調査」から [chosakusha.xlsx] をダウンロードしてほしい。
※2 「辺」の異体字はもっとたくさんあって、24種類の「辺」の字で神経衰弱をする「渡る世間はナベばかり」というカードゲームがあるぐらいだが、実際によく使われるのは「邊」と「邉」の2つらしい。