医療言語処理 若手合同勉強会
MedNLP U-65 Meeting (MUM /ムーム/)
医療言語処理の各分野について,包括的にサーベイし共有するページです.
近年の自然言語処理技術の急速な発展もあり,個人で分野全体を俯瞰することはますます困難になっています.個々人のサーベイ結果や知識を統合し公開することで,医療言語処理分野全体として前進していくための一助になればと考えています.
▲第1回 2021-08-03
時間:15:00-17:00
場所:オンライン
発表者:安藤晶(NAIST ソーシャル・コンピューティング研究室 M1)
紹介論文:BioBERT: a pre-trained biomedical language representation model for biomedical text mining
発表資料:後日公開
タスク
EHR
医学論文
患者テキスト
オントロジー/KB
International
links multiple vocabularies etc. also across languages de, fr, en, ja, ... covers MedDRA and many other biomedical terminologies in various languages
Database about adverse drug reactions and drug indications treatment names (international common name), medical problems (MedDRA)
(in UMLS) Thesaurus used to describe adverse drug reactions. diseases, signs and symptoms
(in UMLS) Thesaurus used to index the MEDLINE bibliographic database includes diseases, signs and symptoms (Chapter D), and chemicals (Chapter C)
(in UMLS) Classification of drugs en links substance names (INN) to chemical characteristics, pharmacologic group, therapeutic intent, organ/system
(in UMLS) Ontology of diseases, signs and symptoms; treatments, etc. en, es, ... includes diseases, signs and symptoms
国内(日本語)
万病辞書
百薬辞書
固有表現特定(NER)
定番データ
CoNLL2003 DATA(20年近くも使われているNERのベンチマーク.NLPerなら一度は使ったことがある.)
精度評価スクリプトも配布されている
PubMed
NCBI disease corpus: PubMedのタイトルとアブストラクトに病名を付与.定番データセット.辞書はMEDIC.
BC5CDR: PubMedのタイトルとアブストラクトに病名と化合物,その関係を付与.元はシェアドタスク.辞書はMEDICとCTD chemical database.
MedMentions: PubMedのタイトルとアブストラクトにUMLSのCUIを付与.かなり大規模.
GENIA dataset: Biomedicalなデータセット.PubMedのアブストにタンパク質やDNAを付与.nested NERでよく使われる.
患者表現
AskAPatient: askapatient.comのブログから副作用をアノテーション.SNOMED-CTとAMTに紐付け.
COMETA: redditのヘルスケア関係の投稿にSNOMED-CT中の概念をアノテーション.
モデル
flat-NER
BiLSTM-CRF (in ACL, 2016): 言わずと知れたベースライン.BERT以前のベースラインとしてよく使われる
BioBERT (in Bioinformatics, 2020): pubmedとpmcで事前学習されたBERT.NCBIやBC5CDRで最高精度
PubMedBERT (in arxiv, 2021): pubmedで事前学習されたBERT.BioBERTより全体的に精度が良い
nested-NER
layered-model (in NAACL,2018): 出力層を複数積み重ねて,それぞれの層で異なる粒度のentityを抽出
pyramid (in ACL, 2020): layered-modelを拡張し,ピラミッド上に出力層を積み重ねることで,層ごとの粒度の衝突を回避
dependency-parser (in ACL, 2020): 構文解析と同じ枠組みでNERすることで,flatとnestどちらも同じように扱える
NER as MRC (in ACL, 2020): 機械読解的にNERすることで,flatとnestどちらも同じように扱える
関係抽出 (Rel. Extraction)
Spanで行う,NERの後段で行うものなど流派がある
文書分類 (Document classification)
BERT baseの手法一択
エンティティリンキング
手法
ルールベース手法
MetaMap (in AMIA symp, 2001): 医療分野でのエンティティリンキングの最大手.UMLSに紐付け.類義語を展開するなどルールベースシステム.おそらく現在でも最も使われているシステム.申請が必要.pythonのwrapperもある.
Sieve-based (in ACL-IJCNLP, 2015): ルールベースでかなり頑張る論文.ルールベースでのエンティティリンキングだとおそらく一番新しい.
文字列間の類似度
DNorm (in Bioinformatics, 2013): 言わずと知れた病名のエンティティリンキング手法.ソフトウェアとして公開されている.
埋め込み表現による類似度
Triplet-based (in ClinicalNLP, 2019): CNNをTriplet lossで学習.
BioSyn (in ACL, 2020): BioBERTの埋め込み表現を距離学習的に最適化.Top-Kでソフトマックスを取ることで,負例のサンプリング方法に依存しない.
SapBERT (in NAACL, 2021): 辞書の類義語で対照学習することで,タスク特化の学習データなしでSoTA.
BioCoM (in arxiv, 2021): 大量の生テキストで学習,コーパス内で近傍探索する.学習データなし+辞書が小規模でも精度高め.著者の論文.どこかに投稿する予定.
固有表現抽出との同時学習
TaggerOne (in Bioinformatics, 2016): 固有表現抽出と曖昧性解消を同時に学習するモデル.セミマルコフモデルを使用している.
Transition-based (in Bioinformatics, 2017): stack-LSTMのような順次actionをするモデル.
Multi-Task (in AAAI, 2019): 各トークンについてIOB2と概念の2つの分類問題をマルチタスク的に解く.結果が再現しないので厳しい.GitHubにコードは上がっているが提案手法とは対応していない,プラスissueとして再現しないと言及があるが反応なし.
データ
NCBI disease corpus: PubMedのタイトルとアブストラクトに病名を付与.定番データセット.辞書はMEDIC.
BC5CDR: PubMedのタイトルとアブストラクトに病名と化合物,その関係を付与.元はシェアドタスク.辞書はMEDICとCTD chemical database.
MedMentions: PubMedのタイトルとアブストラクトにUMLSのCUIを付与.かなり大規模.
AskAPatient: askapatient.comのブログから副作用をアノテーション.SNOMED-CTとAMTに紐付け.
COMETA: redditのヘルスケア関係の投稿にSNOMED-CT中の概念をアノテーション.
ツール群
略語展開:Ab3P
Contributors
氏家翔吾,奈良先端科学技術大学院大学(エンティティリンキング)
荒牧英治,奈良先端科学技術大学院大学(オントロジー)