医療言語処理若手合同勉強会

MedNLP U-65 Meeting (MUM /ムーム/)

医療言語処理の各分野について，包括的にサーベイし共有するページです．

近年の自然言語処理技術の急速な発展もあり，個人で分野全体を俯瞰することはますます困難になっています．個々人のサーベイ結果や知識を統合し公開することで，医療言語処理分野全体として前進していくための一助になればと考えています．

▲第1回 2021-08-03

時間：15:00-17:00

場所：オンライン

発表者：安藤晶（NAIST ソーシャル・コンピューティング研究室 M1）

紹介論文：BioBERT: a pre-trained biomedical language representation model for biomedical text mining

発表資料：後日公開

タスク

EHR

医学論文

患者テキスト

オントロジー/KB

International
- UMLS Meta thesaurus
  - links multiple vocabularies etc. also across languages de, fr, en, ja, ... covers MedDRA and many other biomedical terminologies in various languages
- SIDER
  - Database about adverse drug reactions and drug indications treatment names (international common name), medical problems (MedDRA)
- MedDRA
  - (in UMLS) Thesaurus used to describe adverse drug reactions. diseases, signs and symptoms
- MeSH
  - (in UMLS) Thesaurus used to index the MEDLINE bibliographic database includes diseases, signs and symptoms (Chapter D), and chemicals (Chapter C)
- ATC
  - (in UMLS) Classification of drugs en links substance names (INN) to chemical characteristics, pharmacologic group, therapeutic intent, organ/system
- SNOMED-CT
  - (in UMLS) Ontology of diseases, signs and symptoms; treatments, etc. en, es, ... includes diseases, signs and symptoms
国内（日本語）
- 万病辞書
- 百薬辞書

固有表現特定(NER)

定番データ

CoNLL2003 DATA（20年近くも使われているNERのベンチマーク．NLPerなら一度は使ったことがある．）
- 精度評価スクリプトも配布されている

PubMed
- NCBI disease corpus: PubMedのタイトルとアブストラクトに病名を付与．定番データセット．辞書はMEDIC．
- BC5CDR: PubMedのタイトルとアブストラクトに病名と化合物，その関係を付与．元はシェアドタスク．辞書はMEDICとCTD chemical database．
- MedMentions: PubMedのタイトルとアブストラクトにUMLSのCUIを付与．かなり大規模．
- GENIA dataset: Biomedicalなデータセット．PubMedのアブストにタンパク質やDNAを付与．nested NERでよく使われる．
患者表現
- AskAPatient: askapatient.comのブログから副作用をアノテーション．SNOMED-CTとAMTに紐付け．
- COMETA: redditのヘルスケア関係の投稿にSNOMED-CT中の概念をアノテーション．

モデル

flat-NER
- BiLSTM-CRF (in ACL, 2016): 言わずと知れたベースライン．BERT以前のベースラインとしてよく使われる
- BioBERT (in Bioinformatics, 2020): pubmedとpmcで事前学習されたBERT．NCBIやBC5CDRで最高精度
- PubMedBERT (in arxiv, 2021): pubmedで事前学習されたBERT．BioBERTより全体的に精度が良い
nested-NER
- layered-model (in NAACL,2018): 出力層を複数積み重ねて，それぞれの層で異なる粒度のentityを抽出
- pyramid (in ACL, 2020): layered-modelを拡張し，ピラミッド上に出力層を積み重ねることで，層ごとの粒度の衝突を回避
- dependency-parser (in ACL, 2020): 構文解析と同じ枠組みでNERすることで，flatとnestどちらも同じように扱える
- NER as MRC (in ACL, 2020): 機械読解的にNERすることで，flatとnestどちらも同じように扱える

関係抽出 (Rel. Extraction)

Spanで行う，NERの後段で行うものなど流派がある

文書分類 (Document classification)

BERT baseの手法一択

エンティティリンキング

手法

ルールベース手法
- MetaMap (in AMIA symp, 2001): 医療分野でのエンティティリンキングの最大手．UMLSに紐付け．類義語を展開するなどルールベースシステム．おそらく現在でも最も使われているシステム．申請が必要．pythonのwrapperもある．
- Sieve-based (in ACL-IJCNLP, 2015): ルールベースでかなり頑張る論文．ルールベースでのエンティティリンキングだとおそらく一番新しい．
文字列間の類似度
- DNorm (in Bioinformatics, 2013): 言わずと知れた病名のエンティティリンキング手法．ソフトウェアとして公開されている．
埋め込み表現による類似度
- Triplet-based (in ClinicalNLP, 2019): CNNをTriplet lossで学習．
- BioSyn (in ACL, 2020): BioBERTの埋め込み表現を距離学習的に最適化．Top-Kでソフトマックスを取ることで，負例のサンプリング方法に依存しない．
- SapBERT (in NAACL, 2021): 辞書の類義語で対照学習することで，タスク特化の学習データなしでSoTA．
- BioCoM (in arxiv, 2021): 大量の生テキストで学習，コーパス内で近傍探索する．学習データなし＋辞書が小規模でも精度高め．著者の論文．どこかに投稿する予定．
固有表現抽出との同時学習
- TaggerOne (in Bioinformatics, 2016): 固有表現抽出と曖昧性解消を同時に学習するモデル．セミマルコフモデルを使用している．
- Transition-based (in Bioinformatics, 2017): stack-LSTMのような順次actionをするモデル．
- Multi-Task (in AAAI, 2019): 各トークンについてIOB2と概念の２つの分類問題をマルチタスク的に解く．結果が再現しないので厳しい．GitHubにコードは上がっているが提案手法とは対応していない，プラスissueとして再現しないと言及があるが反応なし．

データ

NCBI disease corpus: PubMedのタイトルとアブストラクトに病名を付与．定番データセット．辞書はMEDIC．
BC5CDR: PubMedのタイトルとアブストラクトに病名と化合物，その関係を付与．元はシェアドタスク．辞書はMEDICとCTD chemical database．
MedMentions: PubMedのタイトルとアブストラクトにUMLSのCUIを付与．かなり大規模．
AskAPatient: askapatient.comのブログから副作用をアノテーション．SNOMED-CTとAMTに紐付け．
COMETA: redditのヘルスケア関係の投稿にSNOMED-CT中の概念をアノテーション．

ツール群

略語展開：Ab3P

Contributors

氏家翔吾，奈良先端科学技術大学院大学（エンティティリンキング）
荒牧英治，奈良先端科学技術大学院大学（オントロジー）

Google Sites

Report abuse

医療言語処理 若手合同勉強会