Synaptic basis for reinforcement learning

Many psychiatric disorders involve monoamines such as dopamine and serotonin, synapse-related genes, and brain regions such as the frontal and limbic systems. All of these are relevant to learning for flexibly adapting to the environment. We thus clarified how transient changes in dopamine signaling regulate synaptic plasticity and learning in the nucleus accumbens (NAc), a region receiving strong projections of dopaminergic neurons,

The NAc consists the neuron groups expressing the dopamine D1 receptor (D1 cells) and the other half of cell groups expressing the D2 receptors (D2 cells). When an unexpected reward is given during the conditioned learning by the reward, the dopamine concentration transiently increases from the baseline level. It is well known that this signal causes classical conditioning that associates conditional stimuli (CS) such as sounds with rewards such as water (unconditional stimuli, US). We monitored and manipulated dopamine activity in vivo by optogenetics and fiber photometry, and manipulated glutaminate and dopamine by 2 photon uncaging of caged-glutamate and optogenetics in NAc slices. We found that transient increase in dopamine concentration enhanced the plasticity of dendritic spines in D1 cells within a narrow time window, a synaptic eligibility trace (Yagishita et al., Science, 2014), and regulated conditional learning (Yamaguchi,…, Yagishita, BioRxiv). We unexpectedly noticed that the D1-dependent conditioning broadly generalized to similar sensory stimuli that have never been learned (generalized learning). If this over-prediction was incorrect, dopamine showed transient decrease, which induced spine plasticity of D2 cells for refining the prediction (discrimination learning) (Iino,…, Yagishita, Nature, 2020). These data provided a novel foundation for understanding reinforcement learning from the synaptic level.

Currently, we are expanding our research to serotonin and prefrontal cortex to understand learned behaviors from synaptic functions.

多くの精神疾患には、ドーパミンやセロトニンなどのモノアミン、シナプス関連遺伝子、前頭葉や大脳辺縁系などの脳領域が関与しています。これらはすべて、環境に柔軟に適応するための学習に関係しています。そこで私たちは、ドーパミン神経細胞の強い投射を受ける側坐核(NAc)において、ドーパミン一過性変化がシナプス可塑性と学習をどのように制御しているのかを明らかにしてきました。

NAcは、ドーパミンD1受容体を発現する神経細胞群(D1細胞)と、D2受容体を発現する神経細胞群(D2細胞)で構成されています。報酬による条件づけ学習中に予期しない報酬が与えられると、ドーパミン濃度はベースラインレベルから一過性に上昇します。このシグナルが、音などの条件刺激(CS)と水などの報酬(無条件刺激、US)を関連づけて、古典的条件づけを引き起こすことはよく知られています。私たちはファイバー光測定による生体内ドーパミン観察と光遺伝学による操作、および脳スライスでケージド・グルタミン酸の2光子アンケージによるグルタミン酸操作と光遺伝学によるドーパミン操作による実験を行いました。結果、ドーパミン濃度の一過性上昇が、狭い時間枠でD1細胞のスパインの可塑性を増強し、条件づけ学習を制御すること発見した(Yagishita et al., Science, 2014; Yamaguchi, ..., Yagishita, BioRxiv)。このD1依存的な条件づけが、学習していない類似の感覚刺激に対して広く汎化していることに気がつきました(汎化学習)。この過剰予測が不正確だった場合に、ドーパミンは一過性の減少を示し、D2細胞のスパイン可塑性を介して予測を精緻化していました(弁別学習)(Iino, ..., Yagishita, Nature, 2020)。これらによりシナプス基盤から脳の強化学習を新しく理解することが可能になってきました。

現在はセロトニンや前頭前野に研究を発展させています。

New approaches to psychiatric disorders

Psychiatric disorders reflect the brain's inability to adapt to society. To understand this, we need to understand not just abnormalities in intracellular signaling, but also malfunctions in information processes interacting with complex environment. The understanding of synaptic function provides a unique opportunity to handle aspects of both molecular dysfunction as a substance and acquisition of maladaptive information through learning.

As an example, previous studies on D2 cells suggested a novel model for schizophrenia as the interaction of vulnerability in dopamine-D2 receptor pathway and social-environmental experiences. We have shown that D2 receptor-dependent spine plasticity and discrimination learning is vulnerable to dopaminergic dysregulation, which can provide synaptic basis for the salience misattribution that causes exaggerated sensitivity to sensory stimuli that are naturally negligible in the surroundings, a state named delusional mood, an early symptom of schizophrenia. An important feature of schizophrenia is that it progressively worsens from the early symptoms to manifest cognitive dysfunction and negative symptoms. If the abnormal salience continuously accumulated in the social environment after adolescence, it can cause dysregulated dopamine activity throughout the brain to cause disturbance in a wide range of brain regions, including the prefrontal cortex. We now test this idea.

In this way, we believe that studying synaptic function will open new ways for new understanding of disease. With the development of various neuroscience techniques, it is now possible to freely manipulate genes and neural circuits. In contrast, our understanding of behavior is still biased by preexisting paradigms. Since we have deep interactions with the Department of Psychiatry at the University of Tokyo, and we will apply clinical insights to develop new behavioral models to understand symptomatology of diseases.

精神疾患は、脳が社会に適応できない状態です。これを理解するためには、単に細胞内シグナル伝達の異常だけでなく、複雑な環境と相互作用する情報の異常も理解する必要があると考えます。シナプス機能を理解することで、物質としての分子機能異常と学習による不適切な情報の獲得という両方の側面を扱うことができます。

例えば、D2細胞を用いた先行研究から、ドーパミン-D2受容体経路の脆弱性と社会環境経験の相互作用により、統合失調症を理解する新規モデルが示唆されました。D2受容体によるスパイン可塑性と弁別学習がドーパミン異常に脆弱でした。これはサリエンス障害と呼ばれる周囲の通常無視できるような感覚刺激に対して過剰に敏感になる状態を起こすシナプス基盤と考えられ、統合失調症の初期症状である妄想気分の説明が可能です。しかし、統合失調症の重要な特徴は、このような初期症状から徐々に悪化して認知機能障害や陰性症状が現れることです。思春期以降の社会環境で異常なサリエンスが継続的に蓄積されると、脳全体のドーパミンが異常となり、前頭前野をはじめとする広い範囲の脳領域に障害を引き起こす可能性が仮説として考えられ、現在検証しています。

このように、シナプス機能を追求することで、疾患を理解する新たな道が開けると考えています。様々な神経科学の手法が発達したことで、遺伝子や神経回路を自由に操作することが可能になりました。一方で、行動の理解は既存の実験パラダイムに大きく依存しています。東京大学精神医学教室との交流が深いことから、臨床的な知見を応用して、疾患の症状理解のために新しい行動モデルを開発していきたいと思います。

Experimental setup

2P microscopy with 2P uncaging and optogenetic stimulation

While imaging dendritic spines with 2P microscopy, we can stimulate single spines with 2P uncaging of caged-glutamate and optogenetic stimulation of axons with blue light. This setup allows us to manipulate neural signaling relevant to learned behaviors.

Head-restrained conditioning system with multiple fiber photometry

We can simultaneously record neural activity or monoamine release from multiple regions in the brain during learned behaviors.

We also use fear conditioning, operant conditioning, open field and so on with DeepLabCut detection of mice behaviors.