データのそうじ

著作者データ

国会図書館の「著作者情報公開調査」では、調査対象の著作者のデータを、Excelの表計算型式でダウンロードできる(公開調査著作者リスト.xlsx)。

このExcelファイルには「公開調査著作者リスト」というシートがあ、シートにある項目名は次のとおり(※1)。

著者ID

国立国会図書館典拠データ検索・提供サービスのURL

著作者名

生年

没年

関連情報1

関連情報2

NDCの傾向

NDC(3桁デコード値)の傾向

出版地の傾向

関連する書誌データ数

関連する書誌データ(原資料のNDL書誌ID_タイトル_版表示_著者_出版者_出版地_出版年_調査対象者の役割)

表記のゆれ

この中で一番大事な項目は著作者名だが、これがくせ者。原本に忠実にということなのか、あるいはデータの作成時期が関係するのか、漢字の字体が新字体だったり旧字体だったり、あるいは異体字だったり、まちまち。いわゆる「表記のゆれ」問題。たとえば、「藤」と藤」、「藤」と「藤」。間違い探しみたいだけど、「(U+90CE)」と「(U+90DE)」なんてのもある。

で、こうした表記のゆれがあると、データを並び替えたり、他の人名データとマッチングするときに困ってしまう。世の中にはこうした問題で苦しんでいる人がたくさんいて、旧字体や異体字を新字体へ変換するためのテーブルがいくつも公開されている。これらのテーブルを比べた結果、漢字データベースプロジェクト異体字データベースから、常用漢字表異体字(joyo-variants.txt)と、旧漢字(jp-old-style.txt)のテーブルをダウンロードして加工し、字体の変換表を作成した。

さらに、perlの Lingua::JA::Mojiで使われている変換表(new_kanji2old_kanji.txt)もマージして、perlのプログラムで変換のテストをしてみた。すると、「」と の相互変換は可能だが、」「」「」「」「」「」のすべてを「 にするといった多対一の変換はダメだった。そのため、多対一の部分は別の方法で変換することにした(※2)。

で、国会図書館の著作者データの著作者名からマッチング用の変換データを作成して、他の人名データも同じ方法で変換して、マッチングしてみた。その結果、マッチング用のデータは、」、「変換するより」、」、「」を全部」にしてしまったほうが、見落としが少なくなるんじゃないかと思い、変換方法はさらに複雑になった。いっそ、「」「」「」のような間違いやすい字も変換しようかとも考えたが、やりだすときりがないので取りやめた。

重複調査

さて、著作者名を新字体に変換してExcelのリストに追加し、その新字体人名でソートすると、字体は違うが、実は同姓同名という著作者がいくつもみつかった。国会図書館の場合、万単位の本を複数の人が手分けして作業していただろうから、そうしたずれが発生するのは仕方ないのかもしれないが、放置しておく手はない。内容を確認して、同一人物と思われるものを何人も報告した。没年調査とは少し異なるが、調査対象者の数を減らすことには貢献できたと思う。

2023年3月19日作成/2023年3月31日修正

※1  以前はExcelファイルの中に「リストの項目について」というシートもあって項目名に対応する説明あったのだが、2022年12月に「著作者情報公開調査」のサイトがリニューアルしてからは、なくなってしまった。興味のある方は、Internet Archiveに保存された「著作者情報公開調査」から [chosakusha.xlsx] をダウンロードしてほしい。

※2 「辺」の異体字はもっとたくさんあって、24種類の「辺」の字で神経衰弱をする「渡る世間はナベばかり」というカードゲームがあるぐらいだが、実際によく使われるのは「邊」と「邉」の2つらしい。