マンガの構成要素を抽出してメタデータとして保存する[1] .メタデータにはコマ・登場人物の顔・登場人物の体・フキダシがある.特に,登場人物の顔には範囲だけでなく表情・向きがあり,フキダシにはセリフの内容がある.
マンガを「視る」というのはマンガ画像の中からマンガの各要素の領域を検出することである.任意の画像から指定された物体を検知して領域を特定することを意味領域分割という.手法はさまざまにあるがSSD512[2]を使うことが有用であった.
マンガを「視る」だけでは領域しか情報を得ていない.さらに領域内の内容を識別する必要がある.この自動識別をここでは「識る」と呼ぶ.具体的には顔領域であればキャラクタの名前・向き・表情であり,フキダシであれば書かれている文字である.キャラクタの分類にはVGG16モデルをベースにした ファインチューニング法による分類モデルを使用した [3].