前回は,二段組の文章を上下別々の画像ファイルとして切り出して,OCR処理したが,上下段を1ページそのまま処理することができれば,画像処理の手間が省けて都合が良い.そこで,メージ単位の処理を試みてみた.試料は前回紹介した「朝陽館漫筆」の1ページである.
今回は変色したままのページをそのままOCR処理したが,結果として,文章のブロックを自動的に検出して,文章の繋がりを無視した形で,それぞれ変換処理された.
下の例では,まず上段右3分の2(赤枠1),次いで下段(赤枠2)に移り,最後に上段左3分の1(赤枠3)の順である.
ページの最上段から最下段へ向かうような処理は避けてくれるので,問題はない.
以下にアップロードした画像ファイルをアプリ(ドキュメント)で処理した結果をそのまま表示した(画像の下にOCR処理後のテキストが表示されている.隠れている場合はスクロールで閲覧可能である.
1,2,3の順に処理された
朋並放課川
法禪寺觀性 在命に候へば遠島 西河岸町 山中藤兵衛」 「即測宋林肥後守樣尤即家來口山 中追成宗智山城守家來吉川三八 江戶購六角越前守家來武非政載 中道故城田排津守家來原田三林 入都輕追放新右衛門栓嘉吉 百日邦”高非飛驛守家來平岩鄉助 百日押返四天王寺辭心院善順 無權移泊富之助家来 山田友
一、島原常正月十八日去皮心致地震普賢山中山之 步六十間程之所三四間程宛的完二学明陽氣浮 h後心虚火姐」成郭小夫4段女山〈燒小人石
穆欺燒济蜂北谷上所《燒移二月九日此心性火光强 鍥 御城御牌二丁所財申候。 一、右想治娜義御城下町力仁宿取致逗留統處又心 致地震接付於容莎出可中」歷從得共州之地震 て候間り居候様達て異見に任せ見合居候得ば 少儿間遠仁成族所無程地震致玲助疑付最早之后,能 邀出院所家居諾本共立浙大地所云三尺宛制北往 楽之水重り腰より上へ越し山合の火は紫色にもえ上 り回の開にて東西南北見へ不分恐しき事言語に難車 男女叫沙州科共津液止吹出候泥熟湯」一y仁 成如何可叫毕然忙整治邸注漸邀出郭城內不明門山 所凡六尺餘之水龙凌冬石加忙取付御曲輪之松明挑为 之火主見常御城《逃匹命助中申候此者乎代法大手印 門の外大満の内へ飛込面部手足共打こわし半死半生
Q島原大變
宜政四年王子把前因島原山河大變一件 一、當二月大坂屋可日届頭大和屋市石積門牌體治 郎上申者唐津押城主水野左近將監祿御邸城心付右之 者致御供被地《福下小同四月上旬岛照御城主格平主 股頭樣被成御出府候付右侧道中人足御用承4乎代憶 人人夫四十人淫連島原仁延留中追命助院中。
以下は,下段をOCR処理,修正,整理したものである.上段(「島原大変」を含む)は省略.
一、島原當正月十八日より度々致地震普賢山と申山之方六十間程之所三四間程宛の穴ニッ明窪湯気立登り後には火煙と成(此所麓に温泉あり)夫より段々山へ焼広り 大石夥敷焼落蜂が谷と言所へ焼移二月九日比には火先強く 三月朔日二日一夜に幾度と言数も無之致地震比節 御城御櫓二ヶ所崩申候。
一、右惣治郎義御城下町方に旅宿取致逗留候處又々 致地震候付旅宿を迯出可中と騒ぎ候得共例之地震にて候間鎮?り居候様達て致異見候に任せ見合居候得ば 少し間遠に成候所無程地震致鳴動候付最早こらへ兼迯出候所家居諸木共立折大地所々三尺程宛割れ往 来之水重り腰より上へ越し山合の火は紫色にもえ上 り真の闇にて東西南北見え不分恐しき事言語に難申男女泣叫迯出候得共津波山より吹出候泥熱湯と一ツに成如何可叶や然に惣治郎は漸迯出御城内不明門と申所凡六尺餘之水を凌き石垣に取付御曲輪之松明挑灯 之火を見當御城へ迯込命助り申候比者手代は大手御門の外大溝の内へ飛込面部手足共打こわし半死半生
「横書きの文章」であることは認識するが,横一列として認識する.古い印刷物の画像ではなく,最近のものであるため,認識度は高い.
左右2個の画像ファイルを作成するより,そのままOCR処理して,すこし手を加えればよい.
左右の列に関係なく,左端から右端へ横一列としてOCR処理されている.空白を広げても同じである.次図のように,二列に分けた後,矩形切り出しが可能なテキストエディタで右列を切り出し,左列の下部にペーストすればひとつながりの文章ができあがる.
2008年7~9月に国立歴史民俗博物館で開催された。 「四枚」と記された袋に納められていました。
企画展「ドキュメント災害史1703-23 地震・噴火・ なぜ遠く離れた長野の地でこれらの絵図がみつ
津波、そして復興」の準備のために北原糸子東洋大講 かったのでしょうか。その理由は松代藩主と島原藩
「師が長野市の真田宝物館の絵図を調査した折に島原大 主との親戚関係にありました。島原大変時に島原藩
「変に関する4枚の絵図が偶然発見されました。 主であった松平忠烈の正妻は松代藩主真田幸弘の妹
このうち2枚は島原市本光寺と同市立図書館に1枚 でした(太田, 2002)。二人の間にできた子供が島原
ずつ残る絵図の写しとみられました。残る2枚は島原 大変直後に急逝した忠烈の後を継いだ忠遇でした。
にも存在が知られていない、溶岩流の様子を詳細に描 こういった関係で、松代藩主が島原で起きた地震や
いた絵図と噴火口が開いた山頂を描いた絵図でした。 噴火の様子を描く詳細な絵図を入手できたと考えら
これらは松代藩第六代藩主真田幸弘の所蔵品として れます。また、入手した絵図を松代藩では「災害の
「寛政四年干春肥前国島原山焼・山崩・高波絵図面 危機管理」に役立てたのかもしれません。
上の画像のカラムの間に縦に一本線を引くと左右のカラムを別々にOCR処理してくれる.
本文書をマイクソフトのOneNoteでOCR処理した結果,当たり前のように,左右カラムを認識しひと繋がりの文章を出力してくれた.操作は簡単で,マウスの右クリックで表示されるメニューの中の「画像からテキストをコピー」を選択するだけである.
1)アプリのダウンロード,インストール
2)ファイルから新規ページを選択,適当な文書名の入力
3)画像データの読み込み
4)マウスの右クリックで表示されるメニューの中の「画像からテキストをコピー」を選択する.
5)ペーストすれば編集可能なテキストが得られる.
最 近 見 つ か っ た 古 文 書 ・ 古 絵 図 ー 史 料 の 発 掘 で 新 た な 災 害 情 報 を 得 る 一
) 3 年 7 ~ 9 月 に 国 立 歴 史 民 俗 薄 牧 館 で 開 催 さ れ た
企 画 展 「 ド キ ュ メ ソ ト 災 害 史 17 阯 2 興 3 地 震 ・ 噴 火 ・
津 波 、 そ し て 復 興 」 の 準 備 の た め に 北 原 糸 子 東 洋 大 講
師 が 長 野 市 の 真 田 宝 物 館 し り 絵 図 を 調 査 し た 折 に 島 大
変 に 関 す る 4 枚 の 絵 図 が 偶 然 発 見 さ れ ま し た 。
こ の う ち 2 枚 は 島 市 本 う に 寺 と 同 市 立 図 書 館 : コ 枚
十 っ 残 る 絵 図 の 写 し と み ら れ ま し た 。 残 る 2 枚 は 島 原
に も 存 在 が 知 ら れ て い な い 、 瀋 岩 流 の 様 子 を 詳 細 に 措
い た 絵 図 と 噴 火 口 が 開 い た 山 旧 を 描 い た 絵 図 で し た 。
こ れ ら は 松 代 藩 第 六 代 藩 卞 真 田 幸 弘 の 所 蔵 品 と し て
「 寬 政 四 年 千 午 春 肥 前 国 島 原 山 姨 ・ 山 崩 ・ 高 波 絵 図 面
四 枚 」 と 記 き れ た 袋 に 納 め ら れ て い は し た 。
な ぜ 遠 く 離 れ た 長 野 の 地 で こ れ ら の 絵 図 が み つ
か っ た の で し よ う か 。 そ の 理 由 は 松 代 藩 主 と 島 原 藩
主 と の 親 戚 関 係 に あ り ま し た 。 島 原 大 変 時 に 島 原 藩
主 で あ っ た 松 平 忠 恕 の 正 去 は 松 代 藩 主 真 田 幸 弘 の 嫌
で し た は : Ⅲ , 2002 ) 。 一 人 の 間 に で き た 子 供 が 島 原
大 奓 直 に 急 新 し た 忠 恕 の 後 を 羈 い だ 忠 馮 で し た 。
こ う い っ た 関 係 で 、 松 代 藩 キ が 島 原 で 起 き た 地 震 や
噴 火 の 様 子 を 描 く 詳 細 な 絵 図 を 入 手 で き た と 考 え ら
れ ま す 。 ま た 、 入 手 し た 絵 図 を 松 代 藩 で は 「 災 害 の
笵 機 管 理 」 に 役 立 て た の か も し れ ま せ ん 。
注) 縦書きは認識するが,行が入れ替わる問題がある.
あとがき
文章のつながりをAIが判断するようなものではないので仕方ないが,入力するよりずっと省エネである.最近のPDFファイルはほとんど修正の必要がない.