岩波文庫本『近世風俗志』から『守貞謾稿への索引』を使い、国会図書館デジタルアーカイブ『守貞謾稿』の該当コマを参照するイメージ図。
国会図書館デジタルアーカイブ『守貞謾稿』から一部引用を含む。
本来はデジタルアーカイブの索引を作りたいのです。
閑話休題、ではないのだが、梅雨に入り道標探索の合間に、かねてより参考としてきた『守貞謾稿』を調べようとし、何時もの如く、国会図書館デジタルコレクションを見ていると、読み下せない部分がでてきました。
「デジタルアーカイブで「全文検索」すれば良いのでは。」とのご指摘に、実行してみますと、「このアイテムには全文テキスト情報がないため、全文検索できません」となります。イメージだけなのでしょう。近い内に、AIが検索してくれるようになるのを期待します。
仕方なく、図書館へ行き、『近世風俗志』岩波文庫、全五巻を今回は全巻借りてきました。キーワードを索引から探し該当箇所を複数見る為です。文庫本を検索するのは当然楽なのですが、該当箇所をデジタルコレクションで見る為には、何処を見れば良いのか難儀してしまいます。
何とか、一発で見る方法はないかと思案したあげく、文庫のページ数とデジタルコレクションのコマ数に相関があれば出来そうだと考え、幾つかやってみると、そこそこ行けそうです。そこで全索引に相関関係を設定する事にしてみます。
しばらく、時間が掛りそうだが今後の事もあり、経過と共に載せる事にします。
手順1. 『近世風俗志』から索引を抽出します。全項目をエクセルに作成します。著作権侵害には成らないと思うのですが。如何でしょう。
当分この作業です。
2024/7/24 一応入力終了 5,094行ありました。6/20から取り掛かり1ヶ月以上かかっています。梅雨明け前に終わらせようと思ったのですが。
入力で困ったのは、読めない漢字が多くあった事(読めないと入力出来ないと気づいた)、読めても、IME(Input Method Editorの略、入力方法編集プログラム)に出てこない字がある。また対象となる言葉の読み下しが、『風俗志』とあわず、ソートすると並びが合わなくなる事も多々あります。
『近世風俗志』索引の最も残念な点をグチリます。それは、引用書目名、地名・人名を余り採録しないとする点です。ある意味一番肝心なものが抜けている気がする。何故なんでしょう。
私が初めて『守貞謾稿』と出会うきっかけも、道標の施主にあった「折屋徳兵衛、甚兵衛」からであった。これが『謾稿』にも載るのだが『風俗志』の索引では引っ掛からないのです。実のところ「折屋」で見れば、天神置屋の項と、大坂新町茶屋の二ヶ所には有り、同一の店か二件あったのか謎を呼び楽しくなるのです。同じく芸子の項に『澪標(みおつくし)』という書名が出て来るのだがこれも索引にはない。余分であるが『澪標』には「揚屋、折屋弥兵衛」とあり謎は深まるばかりではあるが。
「折屋徳兵衛の道標」はこちらを参照下さい。
この様に、索引があればもっと便利になると思います。ただ人名は多すぎるのでしょうが、書名は欲しかった。
手順2. 索引から、語と『風俗志』の巻数、ページ数の抽出を行う。エクセル関数では難しそうなので、VBA(自動化の為の開発言語)で対応しようと思いますが、もう何年も作っていません。出来るでしょうか、又、見易さも考え、ページ数の展開は列方向にせず、行を増やす事にします。
暫らく時間を頂きます。道標追跡も再開しますので、忙しくなりそうです。実は既に、「茨木市中穂積の不明道標」に行ってきました。結果は芳しくなかったですが、仕方ありません。日焼け対策を怠りこちらも大変です。
2024/8/2 途中経過
『近世風俗志』を又しても借りてきました。入力値をチェックする為に印刷しますが、インク切れ、購入する他はありません。印刷する前に少しマクロ(VBA)を作成してみましょう。
選択した範囲を解析し、別のシートに、1.索引となる語、2.本の巻数、3.本のページ数、を独立した項目として抽出する。巻数とページ数が複数ある場合は、横(列)方向に繰返して並べる。
取敢えずこれだけなのでロジックはむつかしくありません。が久しぶりに書いてみると、Rangeが上手く使えません。本を見たり、webを検索したり、マクロの自動記録等も使い、四苦八苦です。
何んとか、そこそこ動き出したが、何かのはずみで極端に動作が遅くなります。原因は分からないが、データを修正後にマクロを実行すると発生する様です。
昔のエクセルではこんなことは無かったのですが。データ修正後は一度エクセルを立ち上げ直して実行する癖を付ける事にします。
一応、索引先を横展開する事は可能になったので、データの検証作業に戻ります。
8/2日現在、半分強の所までチェックが終りました。ソート順を、『近世風俗志』の並びに一致させるのが最も厄介です。読めない文字対応もさることながら、「ず」「づ」の使い分け、音便を如何にするか等、本文を参照しながら進めるので時間がかかります。後々の事も考え、『近世風俗志』には書かれていない、「よみ」をひらがなで入れていく事にしました。「よみ」に注釈も必要と思われ項目を追加します。
今日はここまでとします。
2024/8/5 途中経過
8/4日 データの検証作業が終わりました。データ印刷後、目視により2回行いました。修正箇所は100ヶ所程度であった。
作業中に気付いた点を2,3挙げてみます。
①.漢字が見つからない。
「女」へんに「白」と書く字なのですが、本文中では「□人」と書いて「ハクジン」と読むようです。私の持っている『大字典』や『漢和辞典』等の辞書にも無く、頼りとするインターネット上にも見つかりません。近世(天保)頃には有ったものか、守貞さんが作った字なのかは分かりません。或は版木を彫る時に「伯」等を誤って刻んだものかも知れません。
②.「よみ」が割と「エエかげん」な気がします。例えば「頭巾」は「づきん」とよむと思っていたが、「ずきん」としなければ並び順が違ってきたりしている。出版社としては現代かなづかいに従わざるを得ないのでしょうが、如何でしょう。
③.マルッキリ同じ漢字なのに、よみが異なる。これは『守貞謾稿』がそうしていると思われるが、よくわかりません。それは「箒売り」です。普通は「ほうきうり」とすると思うが、「ははきうり」ともしている。
【勉強不足でした】、今回古語辞典を調べた結果「ははき」という言葉があるようで「ほうき」と同じものである事がわかりました。
手順3.
さて、横に展開した索引情報を、縦方向に展開します。見易さの為だけです。自作のツールが有ったはずなので探して実行します。
ツールの更新日を見ると7年ほど前になっています。使い始めると現在のエクセルのファイル種別(.xlms)等が対象になっていません。種別を増やして(VBA修正)実行しますが動くでしょうか。
少し手こずりましたが一応動作しました。5,094件の項目に対して、7,143件の出力件数となりました。
結果を見ると、「あ」とか「い」の見出しだけの項目が除外されてしまいました。参照先が無いものは出力しないとした為です。後日手作業で挿入する事にします。
本日はここまでとします。この後、縦展開のエクセルに、参照先のURLを埋めるツールを作成し実行の予定です。又少し時間が掛ると思います。
2024/8/9 途中経過
手順4.
さて、『近世風俗志』の巻数・頁数と、デジタルアーカイブの『守貞謾稿』のアーカイブID・コマの対応表を作成し、URLを記入した表(シート)を作成しました。これをエクセルのVLookupを用いて、該当URLを表引きするつもりです。
検索項目が2種類である為、テクニックがいると有りますが、巻と頁で一項目とし、VBAで記述しました。が上手く行きません。何度かトライするも原因が分からず、自身でテーブル検索のロジックを作る事にします。過去に使ったVlookupを探すより早いと思うからです。
手順5.
索引の項目が複数ページに存在する場合に、縦方向に展開したシートに対して、参照先を求める、ボタンを作成しました。
これに上記のVBAを割り当て、実行してみました。
最初は数十件づつURLを取込み、URLが正しく指定されているかの検証と共に、ページからコマ数への計算式が実用に耐えるかも見ていきます。
実行結果を見ると、ピタリと一致するとはならないも、使えると判断しました。一致しない原因は、『謾稿』の記事配置が見易さを考えてか、或いは後々の書き込みの為か、紙上に十分な空白を取っているのに、『風俗志』は文庫本の為か空白部が無く、連続して書かれている為と思われる。依って図がある部分や、空白頁がある部分は誤差が大きくなるようです。
100件(100/7143=1.4%)程度の検証ですが、前後3コマ程度はずれるようですが、概ね1コマ後までに含まれると思う。
本日はここまで。上記検証作業をもう少し増やします。
今後の予定として、下記手順6、7が残っています。
2024/8/12 途中経過
上記検証作業を増やし350件(約0.5%)にしました。作業方法は、『近世風俗志』上で索引項目が何処に有るかを探します。これがある意味一番時間が掛るようです。文字が小さく老眼では大変なのです。次に該当『守貞謾稿』を表示し、該当場所を見つけ、URLとコマの左右、右からか、左からか、分かり易い方の行数を求め、記入します。こちらは『風俗志』を探すより簡単かもしれません。何故なら『風俗志』の絵でほぼ位置が察せられるからです。
所が中に難しい場合がありました。原本(守貞謾稿)中では絵と絵の説明、それと本文が上手くまとまっているのに、『風俗志』は体裁の都合上、それが難しいのです。
*又、『守貞謾稿』に付箋があり、本文が隠れている時は、該当コマのイメージ(PDF)が複数存在する場合があり、これも難しさを増します。
*の説明
国立国会図書館デジタルアーカイブの「資料中の不備等に関すること」で、「頁が重複し、次頁が欠落している」とメールした結果、帰って来た答えでわかった。指摘した『謾稿』の重複と見えたコマの、更に次コマの二図が『風俗志』では順番が入れ替わっていたことにより、元の一番目の図が欠落している様に見えた為です。
『風俗志』のおかげで、国会図書館の方にご迷惑をおかけし申し訳ありませんでした。「欠落」等とは冷や汗ものです。
一番難儀したのは、『風俗志』の校注にある次の一節に該当するものです。「…したがって、本書では原文の記述を勘案して記事の配列を改めた。」これが本文中では該当部分に小さく「*」付いているだけで、元位置を探すのが大変でした。
本来この作業を7,134件しなければならないのですが、必要に応じて仮想URLから確定した時点で修正していく事にします。
4日で0.5%なので800日かければ完成するかも。
手順6.
URL縦型展開シートの、同一項目が多数存在すると見苦しいので、空白又は「〃」等に置換します。
手順7.
エクセルを公開するのではなく、HTMLを作成し、ホームページに上げる。
ホームページ上で、フレーム内、文字列検索を使い、索引項目を検出し、目視で該当をクリックすると、国会図書館デジタルアーカイブの該当コマを表示する。
2024/8/20 一応完成
前回から1週間、手順6.〃に変換はツール利用しすぐに終了し、手順7.エクセルVBAでHTMLテキスト作成もほぼ二日で完成した。
目的の『守貞謾稿への索引』も出来上がり表示してみると、文字化けが発生しています。さてこれの解決が出来ません。四苦八苦したが、目途が立たず、手作業がでます。パソコンで内部コードなど意識するとは思わなかったが、環境依存漢字が小文字の?になっています。VBAのエディタが対応していないようで、リテラルとしてその文字が記述出来ません。よって2進か16進等で変えるロジックを作り込む必要が有りそうです。ギブアップし、項目名部はバケたままにし、摘要欄に表現する事にしました。100ヶ所程度あります。
一応完了しました。次は、自身のホームページの更新です。これにも結構手間取り今日になってしまいました。今し方アップロード終えたばかりです。7000行強のURL記述ばかりのファイルとなり、容量が心配でしたが2MB強に収まり一安心です。
利用される方がいるとは思いませんが、HTMLと同等のエクセルファイルと、グーグルスプレッドシート「守貞謾稿索引」等を提供します。ここからダウンロードできます。
以上で終ります。今後、この仮想URLを、確定URLにしていく事が肝心ですが、一筋縄では行かないでしょう。興味があり、自身でURLを埋めたい方は、上記スプレッドシート等を取り込み、自身でURL部を更新され、利用されると良いでしょう。
梅雨休み、夏休み、後の「自由研究」を終え「道標」再開とします。
2024/5/25追記、『風俗志』文庫本の索引に誤りあり。「三度飛脚」、③398頁は多分④398頁であろう。