竹内 政策提言AIシミュレーションの中身についてもお伺いしたいと思います。
福田 「政策提言AI」については、もともと日立では、2012年頃から「意思決定支援 AI 」の開発を行っていました。まず意思決定とは「不確実な状況のもとで、特定の目的を達成するために最善の選択肢を決定すること」です。その中で、AIに求められることとして、不確実な状況の下で「どういう将来がありえるか」とか「どういう選択肢があるか」の検討を支援することをメインとして考えていました。一般的に、政策検討・提言は、「情報収集」「選択肢検討」「戦略選択」の3つのステージで実施されます。政策提言AIでは、真ん中の工程をAIがやり、最初と最後は人間がやる、という「サンドイッチ型」のプロセスを基本としています。研究を始めた2017年当時は、最初の「情報収集」は有識者・専門家の先生にお願いしていました。具体的には、日本全体で社会システムに効果のありそうな指標をあげて、その指標を分類(クラスタリング)によって因果関係(例えば、GDPが上がると失業率が下がる)を推定していきます。この手法は、1980年ローマクラブの成長の限界[4]でも用いられていたシステムダイナミックスのモデルを踏襲した形になっています。因果関係などのパラメータの数値を設定するのは難しい工程ですが、不確実性があることを考慮し、各パラメータに信頼度を設定しています。実際のシミュレーションでは、各パラメータの信頼度の大きさを考慮してあらゆる組み合わせでシミュレーションを行います。これは、いわゆるモンテカルロシミュレーションと呼ばれるものです。そうすると、最終的には幾万通りの起こりえる未来シナリオが導出されます。これを「可能性の束」と呼んでいます。モデルに含まれる不確実性のため、可能性の束を構成する個々のシナリオの信頼性はあまり高くないのですが、可能性の束の全体の分布や、可能性の束に含まれる複数の未来シナリオの間の関係性(分岐構造)には意味があると考えていて、それらに注目した解析を行います。2017年のモデルでは、149指標を使い、333の相関の数を設定しました。次に「選択肢検討」ステージでは、AIを用いて、シナリオ列挙、分岐構造解析、要因検討、の3つを実施します。シナリオ列挙では、どういった未来があるかをもれなく列挙し、似たシナリオを機械的に分類し、代表的なシナリオを提示し、その代表的なシナリオを有識者が解釈・意味付けを行います。先ほど広井先生からご紹介のあった結果は2017年モデルの結果で、ここでは社会的な持続可能性の指標である人口・財政・地域・環境資源と、個人に注目した指標である雇用・格差・健康・幸福の合計8つの観点で評価を行いました。結果として、大きく分けて「都市集中型シナリオ」と「地方分散型のシナリオ」の2通りの未来シナリオが見出せました。分岐構造解析では、AIが代表的なシナリオがいつ分岐するかを計算して提示します。例えば「都市集中型シナリオ」と「地方分散型のシナリオ」の分岐が起きるのは、8~10年後であることが分かりますし、さらに、「地方分散型のシナリオ」の中でも、「持続可能」と「持続不能」の分岐がありますが、それが17~20年であることが分かりました。最後の要因検討は、感度解析[5]の技術を用いて、分岐の要因、つまり、どうしたら望ましい分岐にもっていけるか、を検討するものです。例えば、149の指標うち「都市集中型シナリオ」と「地方分散型のシナリオ」の分岐に大きな影響を持つのは、人口・道徳性・環境税やエネルギー・雇用に関するものが多いことがわかりました。この中から、具体的な政策として落とし込み可能な指標を選んで提言につなげています。
広井 AIによる未来シミュレーションと政策提言がそもそもどのような意味を持つかということですが、人間の持つ認知のゆがみやバイアスを是正できること、多くの要因の間の複雑な関係性を分析できること、それからかなりファジーな繋がりとか幸福とかの曖昧な要因を盛り込んだシミュレーション、言うならば「柔らかいシミュレーション」を行うことができるといったメリットがあると思います。ただ、最初にモデルを作る段階と最後の結果の解釈、勿論どの未来が望ましいかの選択は、これらは全部人間がやり、サンドイッチの真ん中の計算の部分だけをAIがやるので、そういう意味では人間の手のひらの上でAIが踊っているわけです。当然といえば当然ですけれど、AIは補助的なツールです。しかし、これが人間の意思決定を支援する有効なツールになりえているともいえます。
近藤 技術的な質問ですが、AIシミュレーションのモデルには、社会を特徴づける要素やそれらの因果関係はどのように入れ込んだのでしょうか。時間変化や時間遅れの効果も入っていたようですが、確率的な過程も考慮されているのでしょうか。
福田 2017年の最初のモデルを作ったときは、専門家の先生にお願いしてパラメータを一通り入れて頂き、それを使っています。その後、兵庫県のモデルでは、過去の実績データを使ってパラメータの数値を半自動で設定するということを試しています。その時には、140指標ぐらいの20年間のデータというのを兵庫県から頂いて、全指標間の相関を全ペアで相関を計算しました。疑似的な相関もチェックしながら、これは相関がありそうというペアを抽出して、回帰係数の数字をもとにパラメータを設定しています。遅延についても、兵庫県は20年間分データがあるので、それをちょっとずつずらしていって、どこが一番決定係数が高くなるかという解析を行いました。パラメータの設定時に係数と遅延という数字を入れるのですが、それぞれ数字に対して信頼区間を設定できるようにしています。モンテカルロシミュレーションの時に信頼区間の範囲でパラメータの数値を振ってシミュレーションすることになります。
広井 過去20年のデータをベースに計算することは、客観性という意味では一定のプラス面であると同時に、過去の延長で未来をシミュレートすることになりますので、それはまた違うだろうということも考えられます。そこで、専門家の「未来はこうなるだろう」というあえて主観的な部分も入れ込んだりしています。別の方法では、未来技術についての専門家の何百人かのアンケートを取って、未来の不確定な部分や過去の延長ではない部分を、モデルで入れ込む試行を行っています。「過去の延長の未来ではない」ことと、客観性・主観性をうまくバランスとるような方法を模索している感じですね。
近藤 兵庫県でもモデルを作られていましたが、これは他の自治体のデータを使うと結果が大きく変わったりしますか。要素の間の関係が地域によって違うということがありますでしょうか。
広井 今まで県レベルでは長野と兵庫が中心で、市町村レベルでは真庭市とか高浜市とか福山市というようなところでやってきたのですが、これは似ている部分もありますけれど、やはり地域のデータや経済社会、自然環境、状況は違いますのでそれは違ったものになるということが言えます。
[4] シンクタンクであるローマクラブが資源と地球の有限性に着目し、システムダイナミクスの手法にでよって明らかにした研究で、「人口増加や環境汚染などの現在の傾向が続けば、100年以内に地球上の成長は限界に達する」と警告をならした。1972年に発表。
[5] 特定の範囲内でモデルのパラメータが変更された場合に、それに伴って結果がどれくらい変わるかについての傾向を調べる解析