随伴性理論

環境内の規則性を記述する

 学習という現象は「環境内の規則性に基づいた観察可能な行動の変化」と定義しました。この定義に従えば、環境内の規則性をなんらかの形で記述する必要があります。そこで登場したのが随伴性理論(contingency theory, 1)です。随伴性理論を理解するためには、この理論の元になる実験事実と、その実験の動機について知っておく必要がありますので、まずはそこから紹介します。

学習の条件は何か

 学習という現象を研究するにあたって、大きな目的は「どんなときに学習が生じるのか」、つまり学習が生じる条件を明らかにするというものでした。古典的条件づけの発見者であるパブロフや道具的条件づけの発見者であるソーンダイクの時代から、「どういった条件設定が学習を強めるか、あるいは弱めるか」について様々な実験が行われています。中でも、長く重要視されていたのが接近の法則(law of contiguity)と呼ばれるものです。接近の法則とは、「事象と事象の時間的間隔が接近しているほど学習が容易である」というもので、主に古典的条件づけにおいては条件刺激(CS)と無条件刺激(US)の時間間隔が接近しているほうが離れているよりも条件反応の獲得が容易であるという実験事実によって支持されていました。例えば「音刺激と電気ショックの対呈示」という手続きを行うと、音刺激に対して恐怖反応が条件反応(CR)として学習されますが、音刺激の呈示が終わってから電気ショックを呈示するまでの時間間隔を長くするとCRが弱くなります。また道具的条件づけにおいても、道具的反応と結果事象の時間的接近関係は、道具的行動の獲得や維持に重要な役割を果たします。このことから、時間的接近関係は学習が成立するための条件のひとつと考えられてきました。

 ここで、下のような状況を考えてみます。

A、B、Cはそれぞれ異なる実験条件を表しており、時間が左から右に向かって流れています。CSとUSの四角形はその刺激が提示されているタイミングを示しています。例えばA条件では、CS開始からしばらくしてUSが提示され、CSとUSが同時に呈示終了するという試行が3回行われる、という手続きになります。

 一方でB条件では、A条件と同じようにCSとUSの対呈示が3回行われていますが、それに加えてUSの単独呈示が1試行行われています。また、C条件ではさらにUSの単独呈示の回数が増えています。注目してほしいのは、この3つの条件では、四角で囲んだように「CSとUSが時間的に接近して対呈示される回数が同じ」ということです。つまり、もし接近の法則が学習が生じる必要十分条件(CSとUSが接近していなければ学習は起きないし、接近さえしていれば学習が生じる)であるならば、これら3つの条件すべてで同じ程度の学習(ここではCSに対して獲得されるCRの程度)が同じになるはずです。

 しかし実際には、そうはなりません。Rescorla (1968)は、10通りの条件を設定し、CSが提示されていないときにUSが提示されることでCRの獲得の程度が変化することを実験的に示し、随伴性理論を提案しました。実際の結果は論文を見ていただくとして、随伴性というアイデアについて説明します。

随伴性の計算方法

 下の図を見てみましょう。さきほどと同様に、時間が右に向かって流れており、CSやUSが提示されています。随伴性を計算するためには、まず「どんなイベントが何回起こったか」を数える必要があります。そこで、実験時間全体をCSの呈示時間を単位として区切り、イベントを数えるためのユニットを作ります。

 点線で区切られた箇所を見ると、CSとUSが対呈示された試行(CS-US)が2回、CSが単独で提示された試行(CS-no US)が1回、USが単独で提示された試行(no CS-US)が1回、どちらも提示されなかった試行(no CS-no US)が2回となっています。本来は、時間は連続的に流れているものである、イベントの生起回数は「CSあり」「USあり」のケースを数えることはできても、「なにも提示されていない」のような場合を数えるのが厄介になるので、ここではCS呈示時間を使って連続的に流れている時間を区切りました。

 この方法で、どんなに複雑な試行の系列であっても、「4通りのイベントそれぞれの生起回数」という単純なものに圧縮されることになります。圧縮によって重要な情報(試行の順序など)は失われてしまいますが、この問題についてはここでは立ち入りません。

 4通りのイベントの生起回数を表にまとめてみます。CS-US試行がa回、CS-noUS試行がb回、noCS-US試行がc回、noCS-noUS試行がd回といった具合に、4つのイベントの回数を表に書き込むことができます。

 ここから、USに関係なくCSが提示されていた試行がa+b回、USに関係なくCSが提示されていなかった試行がc+d回、CSに関係なくUSが提示されていた試行がa+c回、CSに関係なくUSが提示されていなかった試行がb+d回といった回数も計算できます。

 また、CSにもUSにも関係なく試行が何回あったのかは、a+b+c+dで計算できます。

 いま、試行の実施順序などの情報は失われたものの、CSとUSという2つの事象のあいだの関係がこの表のなかに押し込まれました。CSとUSの間にはどんな関係があるでしょうか。「人間や動物の判断は環境内のどんな情報・規則性に基づいているのか」が知りたいことなので、この表からどんな情報が引き出せるか、そしてそれが人間や動物の行動に反映されているかを調べることが重要になります。

 この表から導出できるCSとUSの間の関係を表す指標はいろいろあります。たとえば統計学で用いられるカイ二乗もそうした指標のひとつです。

 Nは全度数の合計(a+b+c+d)です。このカイ二乗値は、「もし2つの事象のあいだに関係がなかったときに予想される結果と実際の結果の間にどの程度の差があるか」を示すもので、カイ二乗検定などで用いられるのを聞いたことがあるかもしれません。ほかにもφ係数(カイ 2 乗値をNで割った結果の平方根)などもありますが、これらの指標についてはここでは踏み込みません。

 ここでは、CSとUSの生起確率に注目します。確率(probability)という言葉は日常でも使われるので、多くの人が聞いたことがあると思います。CSとUSの関係を確率の言葉で記述するための準備として、確率とは何かについて紹介しておきます。

 確率とは雑駁にいうと「事象の起こりやすさを数字で示したもの」ということですが、もう少し踏み込みつつ雑駁にいうと、「事象に対して規則に従って0から1までの数字を割り当てたもの」が確率です。0から1の数字を割り当てるにあたっていろいろな規則を満たさなければなりません。確率の説明には「サイコロ」を使った例などが多いですが、ここは学習心理学のサイトなのでCSとUSの話題で説明します。

話を単純にするために、まずは「CS提示・非提示」のみに絞ります。いま、確率を考えたい事象は「CS提示」と「CS非提示」の2つです。起こりうる事象すべての集合を標本空間(Ωと表記されることが多い)と呼びますが、ここではあくまでもCSの問題に絞っていますので、標本空間は「CS提示」と「CS非提示」という2つの事象からなる集合です。「CS提示」と「CS非提示」は同時に起こりえない事象であり、排反事象と呼びます。

 例えば「CS提示」に1、「CS非提示」に0というように数字を割り当てることができ、それぞれに対して確率を考えることができます。ここでの1や0、つまり確率を考えたい「CS提示」や「CS非提示」といった事象に対して数字を割り当てたものを確率変数と呼びます。そして確率変数に対して確率を対応させる関数が確率分布です。もしCSの提示・非提示が排反かつ同じ程度に起こるならば、それぞれの確率は0.5 (つまり1/2)となります。

 標本空間に含まれる個々の事象が同様に確からしい(同じ程度に起こる)とき、それぞれの事象が起こる確率は標本空間内の事象の数の逆数になります。上の例であれば、CS提示とCS非提示という2つの事象があるので、それぞれの事象が起こる確率は1/2です。CS提示とUS非提示は排反事象なので、これらの確率をすべて合計すると1になる、というのが重要です。この例のように、「CS提示・非提示」といった離散的な事象に対して確率を割り当てる関数を確率質量関数、身長や体重のように連続的な事象に対して確率を割り当てる関数を確率密度関数と呼びます。確率分布についてはさまざまな種類があり、その特徴や用途によって使い分けられていますが、ここではまだ踏み込みません。興味のある方は成書(2)をあたってください。

 注:ここでの議論は、古典的な確率の定義に従って進めます。標本空間が可算集合の場合など、古典的な確率の定義では不具合が起こるところが出てきますが、測度論や公理的確率の話題は、必要が出てきたときに紹介するかもしれませんが未定です。とりあえず、「事象と『0から1までの数字』を対応させる関数が確率分布で、起こりうる事象の確率を全部足せば1になる」ということだけ押さえておけばとりあえず十分かと思います。

 CSの提示・非提示と同じように、USについても提示・非提示の確率を考えることができます。そこで、CSとUSの両方を合わせて考えます。

 いま、確率を考えたい対象は「CSとUSが対提示される」「CSが単独で提示される」などでした。ここでの標本空間とその部分集合は左図のようになります(このように集合の包含関係を示したものをベン図と呼びます)。標本空間内に、「CS提示」「US提示」「CS非提示」「US非提示」といった事象が存在し、標本空間内の部分集合になるわけです。図のなかのアルファベットは、各領域に対応する事象が観察された度数を示しています。この各事象に対して0から1までの数字を対応させる関数(ここでは確率質量関数)をPで表記します。左の例でいうと、「CSが提示される」という事象の確率はP(CS)と書くことができます。同様に、「USが提示される」という事象の確率はP(US)です。

 CSの提示と非提示は同時に起こりえないので排反事象でしたが、CS提示とUS提示などは同時に起こりえますので、排反ではありません。したがって、「CSとUSの対提示」という事象が起こりえますので、ベン図の「CS提示」と「US提示」には重複部分があります。

 これらの確率を、生起頻度の表に当てはめると左図のようになります。最初に見たように、CSの提示・非提示のみに限定すると、表の一番右の列(US関係なし)にあるP(CS)とP(noCS)が対応していることがわかります。CSが提示された試行回数は(a+b)回、全試行数はN回なので、表のようにP(CS)とP(noCS)を計算できます。

 USについても同様で、表の一番下の行にP(US)とP(noUS)が示されています。

 P(all)はすべての試行をまとめたもので、1になります。


 CSとUSそれぞれの確率だけでなく、ここでは「CSとUSの関係」が関心の対象です。そこで、まずは「CSとUSが対提示される試行の確率」を見てみます。表でいうと、CSの行とUSの列の交わる箇所になり、P(CS,US)と表記されています。このように、確率を割り当てる複数の事象が同時に起こる確率を同時確率と呼びます。

 ここで、先に考えたCS提示・非提示のみの例を思い出しましょう。CS提示・非提示というそれぞれの事象に対して確率を与えてくれるのが確率分布でした。同じように、上の表では「CS提示・非提示」と「US提示・非提示」という複数の事象に対して確率を与えてくれます。このように、複数の確率変数に対して確率を与えるような関数を同時確率分布と呼びます。

 CS提示・非提示およびUS提示・非提示に関する同時確率分布から、CS提示・非提示の確率分布、およびUS提示・非提示の確率分布を求めることができます。上の表の一番右の列を見ると、ここにはP(CS)およびP(noCS)というCS提示・非提示に関する分布が示されています。ここは「US関係なし」、つまりUSの提示・非提示に関係なくCSが提示されるかどうかの確率が示されていて、表にあるように「CS提示確率(p(CS))」は「CSとUSが対提示される確率(P(CS,US))」と「CSは提示されるがUSは提示されない確率(P(CS,noUS))」の足し算、和になり、「CS提示確率(p(noCS))」についても同様に横方向に確率を足し算したものになります。US提示・非提示の確率分布を計算するには、横方向ではなく縦方向に足し算をしてやれば「CSに関係なUSの提示・非提示確率」を求めることができます。このように、同時確率分布が与えられれば、無視したい確率変数が消えるように合算してやれば、関心のある確率変数の分布を算出することができます。こうした操作を、同時確率分布の一番右や下という周辺部に足し算してまとめるという意味を込めて、周辺化と呼びます。

 では、CSとUSの関係について考えていきます。「CS提示とCS非提示は同時に起こりえない排反事象である」、「CS提示とUS提示などは同時に起こりうる」という話はしました。そして、CS提示とUS提示が同時に起こる確率などを同時確率といいました。もし、CS提示とUS提示の確率のあいだに下式のような関係が成り立つとき、これらの事象は「独立」であるといい、成り立たないときには「従属」といいます。

 例えば大小2つのサイコロがあり、大きいサイコロと小さいサイコロで偶数と奇数が出る確率の同時分布を表にすると、CS-USのときと同様に左のようになります偶数、奇数が出る確率が等しく1/2であるとします)。すると、小さいサイコロで偶数が出る確率は1/2、大きいサイコロで偶数が出る確率も1/2です。

 この2つのサイコロを同時に振って、どちらも偶数が出る確率(P(小偶、大偶))は、すべて数え上げると(2,2)(2,4)(2,6)(4,2)(4,4)(4,6,)(6,2)(6,4)(6,6)の9通り、すべての組み合わせが36通りあるので確率は9/36、つまり表にあるように1/4になります。これはP(小偶)とP(大偶)の積に一致しますので、上の式を満たします。つまり大小2つのサイコロでそれぞれ偶数・奇数が出るという事象はお互いに独立です。

 この例のように、独立な事象同士であれば、前に紹介したカイ二乗値は0になります。

 CSとUSの提示・非提示については、実験者が決定することであり、これらが独立であるかどうかは設定次第です。また、学習心理学の関心としては「独立かどうかわからない事象間の関係が行動にどう影響するか」なので、独立であるかどうか、あるいは独立でないならどの程度関連があるのかを示してくれるような指標が欲しいところです(カイ二乗値はそうした指標のひとつです)。

 実験手続きに立ち返ってみると、「音刺激のあとに電気ショックがやってくる」「光刺激のあとにエサがやってくる」という事態においては、音刺激や光刺激のようなCSが電気ショックやエサのようなUSの到来、非到来についてどの程度の意味を持っているかが重要に思われます。

 左図を見てみましょう。上の手続きでも下の手続きでも、CSとUSが3回ずつ同じ回数提示されていて、P(CS)とP(US)は同じであることがわかります。一方で、上の手続きではCSとUSが対提示されていて、下では対提示されていません。この違いをうまく反映してくれるような指標を考える必要があります。

 これら2つの手続きのうち、上の手続きでは「CSが提示されているときにはUSが提示され、CSが提示されていない時にはUSが提示されない」ということになっています。下の手続きでは逆に、「CSが提示されているときにはUSが提示されず、CSが提示されていない時にはUSが提示され」ということになっています。そこで、「CSが提示されているときのUS提示確率」と「CSが提示されていないときのUS提示確率」を計算してみます。

 あらためて元々の表を見てみます。P(US)、つまりUSが提示される確率は、US提示回数を全試行数で割ったもの、つまり(a+c)/(a+b+c+d)で計算できました(周辺化も思い出してください)。では、「CSが提示されているときのUS提示確率」はどのように計算できるでしょう。

 このとき、問題は「CSが提示されているとき」だけなので、確率を計算するために注目するべきなのはCSが提示されている行のみです。つまり、「CSが提示されている試行」の数は(a+b)回、そのうちでUSが提示されている試行はa回ということになり、「CSが提示されているときにUSが提示される確率」はa/(a+b)で計算されます。これを下のように表記します。

このように、ある事象が起こるという前提のもとで別の事象が起こる確率のことを条件付き確率と呼びます。ここでは、「CSが提示されるという前提条件のもとでUSが提示される確率」を計算したことになり、確率Pのカッコのなかの縦線の右に条件となる事象を書くことになっています。同様に、「CSが提示されないという前提のもとでUSが提示される確率についても下のように書くことができます。

こうして、「CSが提示されたときのUS確率」と「CSが提示されていないときのUS確率」を求めることができました。この2つの確率の関係によって、CSとUSの関係が示せそうです。そこで、2つの変数(ここでは確率)の関係を検討するために、それぞれを横軸・縦軸にとって図示してみます。

 いま、CSが提示されたときのUS確率(P(US|CS))を横軸、CSが提示されないときのUS確率(P(US|noCS))を縦軸にとりました。条件付きとはいえ、どちらも確率なので最小値が0、最大値は1であり、1x1の正方形になります。これを随伴性空間と呼びます。

 例えばP(US|CS)が1,P(US|noCS)が0のように「CSがあるときには必ずUSが提示され、CSがないときには必ずUSが来ない」という状況であれば、この空間の右下、座標でいうと(1,0)の点になります。

 このように、CSとUSがどんな関係性になっていても、この1x1の空間内の「点」で表現することができるわけです。

 この空間の意味を考えていきます。まず、この空間の対角線を考えてみましょう。この対角線上の点は、どこであってもP(US|CS)とP(US|noCS)が同じであることがわかります。そして、対角線よりも下の三角形の領域では、P(US|CS)のほうがP(US|noCS)より大きな値を取り、逆に対角線の上の三角形の領域ではP(US|CS)よりもP(US|noCS)の値の方が大きい、ということがわかります。

 条件付き確率のあいだの大小関係が表していることをまとめます。「CSあり時のUS確率>CSなし時のUS確率」であるということ、つまり随伴性空間の下三角形の領域では、「CSがあるときのほうがないときよりもUSが提示されやすい」ということになります。つまり、CSはUSの到来を予測する信号になるということです。逆に、CSあり時のUS確率CSなし時のUS確率」であるということ、つまり随伴性空間の三角形の領域では、「CSがあるときのほうがないときよりもUSが提示されにくい」ということになります。つまり、CSはUSの非到来を予測する信号になるということです。そして対角線上、つまりCSあり時のUS確率CSなし時のUS確率」では、「CSがあろうがなかろうがUSの提示確率が変わらない」ということになり、CSはUSの到来も非到来も予測できません。

 このことから、CSとUSの関係について条件付き確率を計算して随伴性空間上の点として表現したとき、対角線より下にきたときには「CSがUSの到来を予測する信号」として機能し、それに対応した反応が学習され、対角線よりも上にきたときには「CSがUSの非到来を予測する信号」として機能し、それに対応した反応が学習されるという仮説が考えられます。本ページの冒頭で紹介したRescorla (1968)以降、この仮説を支持する結果が報告されています(結果の要約を参照可能なフリーアクセス文献として中島(2014)など)。

 随伴性空間上の対角線では、P(US|CS)P(US|noCS)が等しく、CSはUSの到来・非到来についてなんの情報も与えてくれません。Rescorlaはこのことから、CSとUSの関係性の学習に関する実験を行う際の統制条件としてP(US|CS)P(US|noCS)が等しくなるような手続きを用いるべきであると主張し、これを真にランダムな統制条件と呼びました。P(US|CS)P(US|noCS)が等しいときに実際にどういう反応が学習されるかにはいろいろな話題がありますが、ここでは立ち入りません。

 対角線から右下へ、あるいは左上へと離れていくほど、P(US|CS)P(US|noCS)の差が大きくなっていきます。実際、対角線から離れた条件設定をしたときのほうが、より強い反応が学習されることが示されています。随伴性空間上の「点」は、縦横の軸に対応する2つの条件付き確率の値を持っており、いってみれば「実験条件を2つの値に要約した」ということになります。せっかくなので1つの指標にまとめようということで、この対角線からの離れ具合を示す指標としてΔP(デルタP)というものが提案されており、下の式で計算されます。

 デルタとは差を表すときによく用いられる記号で、条件付き確率の差です。ΔPの随伴性空間上の意味を示したのが左図です。

 0から1の値をとるP(US|CS)とP(US|noCS)の差分なので、最大値は1、最小値は-1になります。随伴性空間の右下、P(US|CS)が1でP(US|noCS)が0になるときに最大値1となり、P(US|CS)P(US|noCS)が等しい対角線上の場合には0に、随伴性空間の左上では最小値の-1となります。

 つまり、ΔPが1に近づくほど「CSはUSの到来を予測する信号」であり、-1に近づくほど「CSはUSの非到来を予測する信号」、そして0のときには「CSとUSは無関係」ということになります。

 このように、CSとUSの対提示や非対提示の回数から確率(あるいは条件付き確率)を計算し、確率同士の関係や差分を使ってCSとUSのあいだの関係性を定量的に示すことができました。これがいわゆるCS-US随伴性と呼ばれるものです。すでに紹介したように、動物を対象とした実験ではこうして定量化された随伴性が学習された行動の種類・強度と関連することがわかっています。つまり、「随伴性という環境内の規則性に基づいて行動が変化する」ということです。

 一方で、ここで紹介した随伴性理論では説明できない問題もあります。例えば人間を対象とした実験では、必ずしもΔPに一致するような行動ばかりが獲得されるわけではありません。発達段階による変化や課題の難易度の影響なども指摘されています。ΔP以外にも(カイ二乗値のように)2つの事象のあいだの関係性を示す指標はあります。

 学習心理学の観点からすると、さらに大きな問題は、こうした確率的関係、つまり環境内の規則性を人間や動物がどのように抽出しているかということでしょう。この問題については別ページでとりあげます。

引用文献

  1. Rescorla R. A. (1968). Probability of shock in the presence and absence of CS in fear conditioning. Journal of comparative and physiological psychology, 66(1), 1–5.

  2. 岩沢宏和 (2016). 分布からはじめる確率・統計入門 東京図書

  3. 中島定彦. (2014). 「つばきとひきつり」から情報処理へ. 基礎心理学研究, 33(1), 36–47.