データベース
「闇鍋」について
データベース闇鍋とは
■闇鍋概要 近代・現代の短歌俳句川柳を集めたデータベース
近代・現代の作品を集めています。特に今は最新鋭作品の収録につとめています。
当初は短歌データベースとして出発。現在は俳句川柳なども入っていて、 語句の使われかたの傾向を見るなど、 評論を書くときにものすごい威力を発揮しています。
このデータは、全体まるごとで公開することはありません。
■データ数
(2018年11月現在)
総数 133,964
内訳 短歌94,465 俳句26,245 川柳12,785 その他469
(その他とは詩、連歌、俳諧、和讚、都都逸など多様)
※ただ、評論を書く時に便利なので古典が少し混じっており、短歌データに含まれる古典は百人一首と超有名な作品が少しだけ。俳句では芭蕉蕪村といった有名句が少し、川柳にも古川柳が混じっています。
■発端から現在まで
短歌辞典の執筆に参加させていただいたときに大量のデータ見比べる重要さに気づいて作り始めた。
最初はお気に入りの短歌をワープロソフトに入力してためていただけだったが、データベースソフトで処理するほうが合理的だと気づいた。
データベースと言っても、当時はまだパソコンが普及していなくて、電子手帳の住所管理ソフトを代用していた。
例:北原白秋さんを検索すると白秋さんの歌がぞろっと住所欄に出てくる。
それを持ち歩ける便利さに驚愕狂喜。
でも、電子手帳の住所録は500件しか入らなかったので、エクセルなどの表計算ソフトでの管理に変え、以降、驚異的に成長。
現在はファイルメーカーproというデータベース専用のソフトで管理しています。
■データの集め方
1 知人友人から、その人のコレクションや、出版歌集等のデータを提供してもらう
2 ネットから入手(歌人などのホームページ・青空文庫)
3 手入力(自分ではあまり入力しない。入力協力者におまかせ。)
■偏りなどについて
・私の好みには偏っていない
自分ではほとんど入力せず、原則として頂いたデータを「選ばずに投げ込む」方針(ゆえに「闇鍋」)なので、私の好みによる偏りはない。
・データの入手しやすさによる偏りがある
知人友人のデータは入手しやすい(所属誌「かばん」メンバーが多い)
ネットにまとまって置いてあるデータは入手しやすい。(青空文庫、歌人本人のホームページなど。)
※自らパソコンを操作しない年代は発信力が弱くて、その年代のネット上のデータは少なめである。
■まちがいがかなり含まれる
手入力ミスやOCRの読み取り化け。出典の側にもかなり表記ゆれ※があります。
※一字アケの有無。漢字とひらがな。旧かなと新かな。(特に、「つ」と、つまる「っ」の表記ゆれ。) パソコンでは出しにくい漢字の代替。漢字ゆれ:「舟」と「船」などの混同。 省略可能な助詞が付いたり消えたり。古歌では濁点の有無。 作者自身が改作。(歌集を編む際に、雑誌発表時とは異なる形に、歌を改作することがしばしばある。)というわけで、 「闇鍋」データは日々確認を重ねておりますが、行き届かない状況です。
ですので、「闇鍋」アンソロジー(仮想題詠、勝手に競詠など)から引用して原稿を書く場合は、なんらかの方法で表記等を確認してください。
■データ共有・検索サービス
・データ全体を共有できるメンバー
入力協力メンバー(「闇鍋メイト」というへんな名前をつけてしまった)はいつでも、最新データ全体を共有できる。現在10人ほど。メイトになるためにはハードルを設けている。
・知人友人には検索サービス(検索結果の提供)を行う。
「闇鍋」の全データは「闇鍋メイト」以外には開示しないが、例えば「評論を書くので○○という語を含む歌を集めたい」などの要望があれば、知人友人には協力している。
■検索機能を使った活動
評論を書くときに使うのは当たり前ですが、そのほかに以下のところに使っています。
・アンソロジー(仮想題詠)
同じ単語などを使った歌を集め、
当ホームページに、気まぐれアンソロジー ミニ、満腹アンソロジー(闇鍋目次にリストがあります)として掲載しています。
・「かばん」会員向け詠草提出例として使用
「かばん」では会員向けメーリングリストで、メール投稿の例を流しています。
その際、同じ単語を使った歌を8首選んだものを例示。
それが、ほんとうに題詠で競っているかのようで、なかなかの読み応え!
・ワン鍋賞、ニャン鍋賞・レア鍋賞
単語検索をした結果、たったひとつしか歌句がでてこなかった場合が「ワン鍋賞」。「ニャン鍋賞」はふたつしかなかった場合。
当初はその旨Twitterでつぶやいた。
しかし、データ数が増えて、ワンニャンはめったになくなったので、3首ぐらいでもレア鍋とすることにし、
Twitterにつぶやくのは、気が向いたときだけに変更している。