専門的な教育を受けたことのない普通の人々が、「ものづくりの手順書」であるレシピを読み解きながら、新しい調理に挑戦しています。キッチンは家庭の中で最も家電が集中する場所であり、モノのインターネット(IoT)の主戦場でもあるため、食材の在庫管理や調理ナビゲーションを目的とするスマートキッチンの研究が盛んに行われています。
私たちは「調理を撮影した映像から調理者が扱っている食材や調理行動を画像認識する技術」や、「音声対話により調理状況を把握し適切な応答を返す技術」などの研究を通じて、調理を知的にサポートするスマートキッチンの開発を行っています。
深層学習をはじめとする情報技術の発展によって、画像認識の精度は飛躍的に向上しています。しかしながらそれらの多くは、「リンゴは赤くて丸い」というように、『同じ名前の物体は同じ性質をもつ』ことを前提としています。一方で調理をはじめとする創作活動は、物体は加工されることによって色も形も変わり、他の物体と混ぜられることによりその構成が変わり、ついには異なる名前を持つ物体に変化します。このような創作過程における物体のトポロジーの変化を、人間の創作活動の認識を通じて理解することを目指しています。
創作過程の途中で過渡的に表れる物体には多くの場合、それそのものを直接的に指すことのできる固有の名前がありません。例えばリンゴが皮を剥かれて切られても、人はその物体を「リンゴ」と呼ぶことが多いですが、それはどうしてでしょうか?
我々はその理由は、その物体がかつて「リンゴ」と呼ばれていた物体と『同一』だからだと考えました。そこで、物体を調理の最初から最後まで継続して追跡し続けることで、加工後の「リンゴ」も「リンゴ」として認識可能な『同一性に基づく物体認識モデル』を提案しました。
さらに、このモデルによる認識結果と、ユーザとの対話から得た言語情報を対応付け、食材名を手順番号による照応表現に置き換えることにより、「①を②に混ぜます。」のような自然なレシピ文を生成するシステムを構築しました。
調理を観測した映像をレシピと対応付けて認識できるようになれば、逆に調理を観測した映像からレシピを生成することも可能となるでしょう。ただし、映像認識における変化する物体の認識や追跡の精度は、現時点ではまだ実用なレベルに達していません。一方で音声認識精度は飛躍的に向上し、WebAPIにより簡単に実装できるようになってきました。映像認識と音声対話の合わせ技によって、レシピを自動生成するアプリの開発を目指しています。