出版した論文についての雑感

福永がpublishしてきた論文についての雑感です。

26. [Hara et al. 2023 Frontiers in Bioinformatics]

早大学生の原さんとの共著論文で、責任著者論文。RNAのaccessibilityを深層学習によって高速に予測しましたよという論文。

深層学習を使うことでシミュレーションを高速化する研究があるという話を2018年くらいのIBISの際に東大の福島先生の講演で聞いて、これをなんかバイオインフォマティクスで使うことができないかと考えたのが発端。深層学習で精度を向上させるというのは完全に食傷気味ですが、速度を向上させるというのは珍しいので面白いなと。ちょうどその頃学部生で浜田研に配属された原さんが関心を示したのでB~Mにかけてやってもらい、その結果をまとめたもの。2018年くらいだとまだバイオインフォでこういう深層学習による高速化研究はほぼなかったんですが、最近は配列アライメントやら系統樹構築やらで出てきてしまっていたので先越されないかなぁとはちょっと思っていた。が、分野のマニアックさ(?)が功を奏したかRNA二次構造関係では初めてということで論文を出版できた。

論文投稿はBioinformaticsに出した際に「精度が元の手法と同等と言えるくらい高いわけではないし、そもそも高速化するモチベーションもそれほどない」みたいなことを言われてreject。まぁごもっともではある。bioinformatics advancesにtransferしても査読者が変わらなければ同じようなことを言われてreviseが大変だし、原さんが卒業しているのもあってなるべく早く済ませようと思いFrontier in Bioinformaticsに投稿。査読者が6人くらいついて1人rejectで5人minor revisionとなり、数が多いので修正はちょっと大変だったが結果accept。

シミュレーションの際に生成する配列を工夫するとか、アーキテクチャの探索をちゃんとやるとか、accessibility以外のものに使う(bppとかstructural profileとか)とかで発展可能性はありそうなのだが(特にシュードノットを考慮し始めるとDPでは計算時間が大変なので、もしもっと高精度にDeepで予測できるようになれば実用性はかなり高くなる)、あまり学生さんから人気はなさそうなのでまぁこれで一区切りかもしれない。

25. [Maruyama et al. 2023 Frontiers in Immunology]

日本医科大学の坂井先生・丸山先生との共著論文。神経障害性疼痛のモデルラットにおける遺伝子発現制御において、lncRNAであるNeat1が制御において主要な役割を果たしており、RNA-RNA相互作用が制御において一定の役割を果たしていることを示した論文。福永はRIblastを用いたNeat1のRNA-RNA相互作用解析を担当。ラットの神経節を縛ることで病態モデルラットを作成するという、不器用な私には絶対に出来なさそうな実験系でびっくりした。浜田先生が担当されている、早大と日本医大の共同研究の一環。私がポスドクだった2017年くらいに始まった共同研究だったので、なかなか時間がかかったがacceptされてよかった。

24. [Fukunaga and Hamada 2022 Bioinformatics Advances]

十一本目のFirst Author論文で、全ての部分を担当。近年RNA 二次構造業界で注目を集めている、LinearFoldでのビームサーチによる高速化法を、RNA共通二次構造予測に適応したよという論文。

ビームサーチの技術そのものはLinearFold/LinearPartitionあたりでHuangのグループが確立しているので、私がやったことはその辺のコードを全部読んでアルゴリズムを理解し、RNAalifoldのコードを読んでアルゴリズムを理解し、その2つをくっつけたという部分である。なので私が何か特に目新しい進展を成し遂げたわけではない。モチベーションとしてもLinear~の技術を習得することが第一目的で、共通二次構造予測に適用することは(ついでに論文を書く気はあったものの)演習問題のようなつもりだった。最近やってなかったですが、ソースコードを読んで実装したりするのは楽しいですね。

なお論文を投稿してBiorxivで公開してから10日後くらいに本家のHuangのグループからLinearAliFoldというほぼまんま同じソフトウェア論文が出版された。まぁ、そりゃ向こうもやってますわな(Centroidはやってないだろうとは思っていましたが)。その後メールが来て、もしかして何か怒られるかなと思ったが特に怒られずに済んで、お互いの論文を引用しましょうということになっただけだった。よかったよかった。ただこちらの論文が既に先にacceptされてしまっているので、向こうがLinearAliFoldをどこかに通すのはかなり厳しいような気がしないでもない。

Linear~の技術を既存のRNA二次構造関係に適用すれば色々論文は書ける(Huangのグループはそれをやりまくっている)。ただガッツリ実装が必要な手法開発は粗方終わっていて、あとはマニアックなツールか、LinearPartitionを組み合わせて使うような話が残っているという印象。たとえばCentroidAlignとかCentroidHomFoldとかは後者。技術的には組み合わせるだけなのであんまり面白くない気もするが、ソフトウェアとしての利用価値はあると思うので作ってみても良いかもしれない(学生さんに振ってもいいが、結構実装力があって数理に明るくないと振りにくい)。

論文投稿としてはBioinformaticsから初めて、「手法として目新しいところが特にない」と言われてrejectされてBioinformatics Advances誌にtransfer。回されたあとはすんなりアクセプト。このtransferはかなり便利だなぁと思っている。

23. [Fukunaga and Iwasaki 2022 Bioinformatics]

本目のFirst Author論文で、全ての部分を担当。21の研究の続編で、PM modelにおいて、各遺伝子にクラスタを確率的に割り当るのではなくて決定的に割り当てをすると、速度とメモリ効率が非常に良くなるけど精度はほとんど変わらないよということを主張した論文

やっていることは、要するにGMMに対してK-meansを作ったというような話なので、発想は普通でちょっと実装を頑張れば良いだけ。このこと自体は21をやっていた時に無論気づいていて論文中にも記載しており、それをちゃんとやりましたという話である。21の時に一緒にやっておくべきだったかなという気もするが、21では既存のモデルよりPMモデルが一番優れているというのが主張であり、PMモデルの中で更に工夫するというのは別の話かなと思ったので分けた。

論文投稿としてはBioinformaticsから始めて、「去年出した論文のVer2.0をなんですぐに出すのか」と査読で指摘されたが、レターでうまく反論して普通に通った。

22. [Fukunaga and Iwasaki 2022 Bioinformatics]

本目のFirst Author論文で、全ての部分を担当。系統プロファイル法において、擬似相関を取り除く逆イジング法を用いると精度が上がり、また進化史再構築と組み合わせるとさらに精度が上がることがあるよということを主張した論文

逆イジング法自体はタンパク質とかRNAの立体構造予測に使われていたことから元々知っており(Direct copuling analysisやEvolutionary couplingとも言われる)、16の研究を進めるために系統プロファイル法のサーベイをしていたときに、この系統プロファイル法は逆イジング法と組み合わせられるなということに気づいたのが研究のスタート。この研究が今までなかったのは、単にこういう分野が下火だからだと思われる。解析自体はすぐに結果が出て上手くいった上、レビュワーからも最初から好感触だったので、特に苦労した点はない。研究をしているときには系統プロファイル法と擬似相関除去を組み合わせる方法は初だと思っていたのだが、論文執筆時に偏相関を利用した方法があることを知ってちょっとがっかりした(サーベイ不足なのかいつも似たようなことしてるな・・)。ただまぁ偏相関は明らかにモデルとして適切でないし、その先行研究もちょっと使ってみた程度で解析をしっかりしていたわけではないので、まぁよかったかなと。

論文中では議論し損ねたのだが、系統樹情報を明示的に利用しなくても系統樹情報を利用したのと同じくらいに高い精度が出る、というのは結構使い勝手が良いことかもしれない(適切な系統樹を準備するのは大変なので。ただ、系統樹が間違っているときに、系統樹を利用した系統プロファイル法の精度がどうなるのかは多分誰も調べていないのでよくわからない)。

論文投稿としてはBioinformaticsから初めてすんなり通った。これを使うと色々できるかなと思っているので、今後適用ケースも増やしていきたいと思っている。

21. [Fukunaga and Iwasaki 2021 Bioinformatics Advances]

本目のFirst Author論文で、全ての部分を担当。ゲノム進化史の推定問題において、遺伝子間のheterogeneityを考える上で、従来利用されていたΓモデルやPDFモデルよりもPMモデルの方が優れているということ、また様々な進化モデルの中でBDARDモデルが良い性能を持つことを示したという論文。

最初にテーマを思いついたのはIwasaki07のタイトルを読んだ時に、"heterogenous"の意味を遺伝子間でのheterogeneityだと誤解したのが始まり(実際にはIwasaki07では、系統樹の枝間でのheterogeneityを考慮している)。このことは最初に論文を読んだ2013年から頭の片隅にずっと残っていたのだが、系統プロファイル法を研究している過程でゲノム進化史推定が必要になった際に、「折角だからあの時思いついたものを作ってしまうか〜」と思って作ったというもの。進化の数理モデルについてはKiryu11の論文を勉強した時に大変面白いと思ったので、自分でいつか実装してみたかったというのもある。分子進化については類似モデルはあるのだが、ゲノム進化についてはPMモデルの研究はなく、またゲノム進化の方がよりクリティカルにPMモデルが効いてくると考えられるので、それは良かったかなと思っている。なお、BDARDモデル自体も新規性があると思って最初はそれにRERモデルという名前もつけて投稿した(プレプリ版はそのようになっている)のだが、査読の時に既出であることを指摘されてしまって少ししょんぼりした。

論文投稿としてはMBE→ISMB/ECCB→Bioinformatics Advancesという流れ。MBEの時には自分の進化学に対する勉強不足から厳しい指摘を受けReject。残念だったが、査読がすごいしっかりしていて勉強になった。その点を修正してISMB/ECCBに投稿した際には、レビュワーから基本的に高い評価を得た(こちらも非常に勉強になった)のだが、ギリギリのところでreject。しかしギリギリだった(上位25%以内acceptance rateは18%とあったので、18~25の間)ので、出来たばかりの雑誌であるBioinformatics Advancesへtransferして良いこととなり、そちらでaccept。

最初に投稿した時は実験も少なかったので良かったのだが、リバイズを重ねるにつれて行う実験が増えていき、ソフトウェアの実行速度が遅いことがどんどんネックに。おかげで最終的な公開も遅れてしまった。高速化についてはPartition法なども含めて今後また別の論文を書きます・・。


20. [Hosoda et al. 2021 Bioinformatics]

共著論文。一般化ロトカ・ヴォルテラ方程式とHMMを組み合わせることで、微生物間相互作用ネットワークの時間変動を捉えることを可能にしたソフトウェアUmibatoを開発したよという論文。17番の論文を書いた後、研究テーマ探しで四苦八苦していた細田さんが、ある日独力でテーマを見つけていて一気に論文執筆まで持っていってISMB/ECCBに通したというもの。私は後方で議論とか解析のsuggestionをしたり、論文執筆のお手伝いをしたりしていました。院生の間にMicrobiomeとISMB/ECCBに通すのは素晴らしいですね。


19. [Matsumoto et al. 2021 Biology Methods & Protocols]

共著論文。機械学習で少しブームになっている双曲幾何について、松本さんや三森さんと勉強会をしていた時に、松本さんが双曲幾何を利用した系統樹埋め込みについてアイデアを思いついて論文まで持っていったもの。ほとんど松本さんが一人で進めたもので、私は応用例とか検証方法について議論したということなので貢献度は低め。双曲幾何自体はかなり面白かったし機械学習としては色々伸び代もあると思うのだが、やはり理論先行で実際にバイオインフォマティクスとして本当に役立つ所まで持っていけるのかは難しいのかなという印象だった。


18. [Mori et al. 2020 IEEE BIBM]

初のLast corresponding author論文。東大CS修士課程学生の毛利さんが筆頭著者として実装・解析を進め、福永はsuprvisorとして研究テーマの立案や方向性の提案、論文執筆などを担当。Tarone法をPrefixSpanにアプライすることで、モチーフ長の指定なしに統計的に有意なモチーフを列挙することができるソフトウェアMotiMulを開発したよという論文。Tarone法については論文16を研究していた時に勉強したので(論文16では失敗したけど)、Tarone法を使ってモチーフ解析もできるな〜ということはわかっており、それを毛利さんに実際に実装・解析してもらったというもの。アイデアとしては極めてストレートな適用なので、今までアプライされていなかったことが少し不思議ではある。ストレートすぎるから?

アルゴリズムが極めて綺麗に構成されているのは良い点であり、特に個人的にはモチーフ長の指定をする必要がない、というのは好きな所。実用的には、結果が列挙されるので出てきた結果の解釈が難しいという点はあるので、そこは解決しないといけない。PWMみたいに潰したくはないのだけれども・・。まぁ、モチーフ発見論文自体は山のようにあふれているので、天下を取りに行くというのはそもそも難しい所なのだが。ソフトウェアの拡張自体は色々考えられるけれども、どれも少し小ネタみたいになってしまうかな。一応biorxivに出してはいるものの、BIBMなのであまり参照されそうにないのも割と残念ではある。。


17. [Hosoda et al. 2020 Microbiome]

共著論文。早大の学生さんとの共同研究としては2本目の論文で、メタゲノムにおけるmicrobial assemblageをLDAで推定してenterotypeとの関係性を調べたところ、全enterotypeに現れるassemblageを同定しましたよという論文。LDAについては博士論文を執筆してる時の現実逃避として佐藤先生のトピックモデル本を勉強している時に知ったのだが、読んだ時にとりあえず「これをバイオインフォに適用するならメタゲノムだろうな」とは思っていた。その後ポスドクで浜田研に移った際に、細田さんがLDAに興味があります!と言ってきたので、浜田先生と相談してメタゲノムはどうかと適当に振ったのが始まりである。最初はMetaMetaDBのデータなどに適用しておりなかなか上手くまとまる気配が出なかったのだが、博士課程で同期でありヒト腸内細菌叢の専門家である西嶋君が同じく早稲田でポスドクとして働くことになったので、一緒に共同研究をしようと始めたあたりから、まとまる気配が見えてきた感じである。モデル選択は正直難航したのだが、Enterotypeとの対応づけを解釈するという方向でなんとか上手く(?)まとめられた。

日付を見れば分かる通り、論文投稿から論文受理まで2年かかっている。まぁレビュワーが見つからなかった・いなくなったとか、Journalの事務方の人が手続きを進めるのを半年放置したとか、色々ありました・・。まぁ最終的には良いJournalにacceptされたので良かったです。


16. [Fukunaga and Iwasaki 2020 PLOS ONE]

七本目のFirst Author論文で、二値行列データから統計的に有意な三項間の論理関係(遺伝子Aがあって遺伝子Bがない時に限り遺伝子Cがある、など)を網羅的に検出するソフトウェアであるLogicome Profilerを開発したよという論文。

2016年くらいからLDAのBioinformaticsへの適用に興味を持っており、その一環としてがんの変異シグネチャーへの適用(早大学生の松谷さんとの共同研究、論文13)やヒト腸内細菌叢への適用研究(早大学生の細田さんとの共同研究、投稿中)を行っていたのだが、私も独自にオーソログテーブルへの適用解析を行っていた。LDAに興味を持った理由としては、自然言語処理において「語の潜在的な意味が抽出出来る」という話から、微生物の生態的機能や機能未知遺伝子の機能が推定出来るのではないかという着想にある。ただし実際にLDAを適応してみた感触としては、得られたクラスタの解釈には価値があるが、個別の微生物や遺伝子の機能の解釈をするのは難しいという印象で、個別の細菌に着目したい場合は別のアプローチが必要だろうなという思いがあった。

そんなわけでオーソログテーブルの個別の遺伝子に着目した解析手法である系統プロファイル法の先行研究をサーベイすると、系統プロファイル法の研究は2008年あたりでほぼ止まっており(Kensche et al. 2008)、色々技術の発展させようがありそうだということがわかった。なのでまずはその手始めとして、系統プロファイル法の先行研究のうちアイデアが面白かった論理関係解析法(Bowers et al. 2004)の改善をしてみようというのがこの研究の発端である。なお系統プロファイル法の研究は今後も続けていく予定です。

Bowers et al.の方法は統計的にかなり適当だったので、ちゃんと仮説検定ベースで手法を作ろうというのは方向性としてすぐに決まったが、そこで多重検定補正法としてTarone法を使えないかと考えた。そしてアルゴリズムを検討した結果、Tarone法を利用した論理関係解析法を開発できた(と思ってしまった)。「これはいい研究をした」と思い、あっちこっちで喋りつつTARA Oceans Projectのメタゲノムデータに適用してISMBに投稿したのだが、査読中に補正法の数理的な誤りに気付いてしまいかなりのショックを受ける。(結局、ISMBは適用データ例が少ないなどの理由で落ちた。レビュワーは4人いたが数理的な誤りに気付いた人はいなかった、というかTarone法で論文を書いた方々と議論したこともあるが誰も気づかなかったので多分普通には気づかない。。) その後紆余曲折あって、多重検定補正法としてただBonferroni法かBY法を適用しただけの技術的には大したことのない論文になってしまった、しょぼーん。論文投稿としては、ISMBの後に論文を修正してInCoB→GIW→PLoS CBと通したが、ほぼ全部「適用データ例が少ない」みたいな感じで落ちて、最後にPLoS ONEに拾っていただいたという流れである。ありがたや。

論理関係に着目するというアイデアは大変面白く、実際に生物学者に対してこの研究の話をすると結構受けがいい。まぁアイデア自体はBowers et al.の功績ではあるが、手法的にはBowers et al.の方法よりはまともだしリバイバルしたという意味では価値があると思う。ただ実用足りうるかというと偽陽性がかなり多そうなので、やはりまだかなり解釈が苦しいだろうなという印象がある。偽陽性を少なくする方法として、たとえば全ての論理関係をモデルに組み込んだ生成モデルを与えて、L1正則化付きで論理関係の重みパラメータを学習させるとかは考えられるが、計算がすごいことになりそう。3年後くらいに挑戦するかも。現状では二値行列データにしか適用できないという問題点がある(メタゲノムデータは適当に二値化した)が、連続値の対応バージョンを作るのは実は簡単。しかし作っても論文を通す見込みが難しい、むむむ。


15. [Shi et al. 2020 OncoGene]

共著論文。1st authorからいきなりメールでデータ送られてきて「これにRIblastをかけてくれないか?」というので、まぁ大して時間もかからんしいいかと思い2日くらい解析して結果を送り返した。その後1年くらい何の音沙汰もなく完全に忘れていたのだが、ある日いきなり「論文を完成させたからこれから投稿するよ!」的なメールが来て、中身を見るとRIblastの結果が候補lncRNAのスクリーニングに役立ったという事らしい。(なので彼らがどういう目的でどういう実験をしているのか、投稿時まで全然わかっていなかった) 結局なんともよくわからず、一般的な共同研究という形とはかなりズレがある気がするが、貢献はあるし役に立ったのならいいかというお気持ちである。


14. [Fukunaga, Iwakiri et al. 2019 Frontiers in Genetics]

六本目のFirst Author論文で、RIblastによるヒトとマウスのlncRNAとmRNAの網羅的な相互作用予測結果をデータベース化して検索できるようにしたよ、あと組織特異的な発現や細胞内局在特異的な発現をするlncRNA-mRNAのペアに対しても検索できるようにしましたよという論文。RIblastが計算時間を高速化したとはいえ、網羅的な相互作用予測を行おうとすると確かにスパコンを大規模に使わないといけないし、更に発現情報と組み合わせようとすると解析が一手間かかるので、見たい人は多いかも。

浜田先生が立案し、発現周りは岩切さんが解析し、サーバ構築は小野さんがほとんどやってくれたので、私自身が実際に手を動かしたところは結構少ないので、1stでいいのかなぁと思わないでもない。(代わりに論文は7-8割くらい書いたけれども・・) 最初はデータベース論文ということにしていてLncRRIdbということだったのだが、論文は落ちに落ちまくって、NAR(Database issue)→Database→Genes→Bioinformatics(Application Notes)→BMC Bioinformatics→GIWとことごとく落ち続けた。基本的に落とされる理由は「RNA-RNA相互作用の予測結果はそれほど信頼性の高いものではないのでデータベースとしてまとめる価値が低い」というもの。そう言われればそれまでだが、でもmiRNAのtarget predictionも実はそんなに予測精度高いわけでもないのに皆信用しまくってない?とか思ってしまう。それはさておき、GIWに落ちた段階である査読者が「全データをダウンロードできるわけじゃないし、これはデータベースっていうかWeb serverに近いものじゃない?」とコメントしたのを見て、「Web serverって言っておけば査読者の予測精度の指摘を回避できるのでは?」という話になり、Web serverを開発しましたという風に論文を書き換えたらFrontiers in Geneticsにすんなりacceptされた。うーん。


13. [Matsutani et al. 2019 Bioinformatics]

共著論文。早大の学生さんとの共同研究としては初めての論文で、がんゲノムにおける変異シグネチャーをLDAで推定しましたよという論文。モデル選択をちゃんとやったというのと、変異のパターンを今まで考えられていたよりも多く考慮したよ、というのが新規性。既存のモデルがいい加減なモデル選択でありテクニカルにしっかりしている論文であるというのはあるが、データベース化された変異シグネチャーは結局人手でキュレーションしたものになっているので、自動でモデル選択できるというこの手法がどの程度使われるのかは若干不明なところではある。変異のパターンを増やしたということについては、新しく発見されたものがうまくBiologicalな機序と結びついて行けば良いなとは思うが、簡単ではないですかね・・。福永自身は、その時LDAを使った研究が別に走っていたということもあり、数理モデルやデータ解析の議論に貢献。


12. [Fukunaga and Hamada 2018 Journal of Computational Biology]

五本目のFirst Author論文で、全ての部分を担当。RIblastの話を学会発表している時やGitHubでのissueなどで、「p-valueやe-valueなどの統計量を出す事は出来ないのか?」という質問が頻繁に来たので作成したという経緯。やった事は要するに帰無分布を作成するためにランダムな配列に対してひたすらRIblastをかけまくるというだけのこと。先行研究のサーベイで、配列相同性検索でのe-valueやp-valueの計算方法について調べたのだが、island法を始めとして高速化のための様々な手法が提案されていて単純な話ではないんだなぁと思った記憶がある。

帰無分布の設定法については色々細かく実験したのだが、さすがにそれだけでは論文にならなかろうという事で、以前スプライシングを研究していた時(RIblastを作成する動機の時期)に見つけていたUTR-UTR相互作用の話とくっつけてまとめる事に。当初はヒトとマウスの間に保存されているUTR-UTR相互作用があるという触れ込みでBMC Genomicsにsubmitしていたのだが、revise中に解析ミスを発見、ただの勘違いだった事が判明。具体的には、ヒトゲノム中の異なる領域がマウスゲノムにおいては同一領域にアライメントされていたというミス。気づかずacceptされていたら笑い者になるところだった、危ない。査読そのものはmajor revisionだったがwithdrawして論文を修正しBMC Bioinformaticsへsubmit。が、editorial段階で「BMC Genomicsの時のreviewer commentにきちんと答えよ」というお達しが来て、内容変更のため返答が出来ない部分もあったので、またwithdrawし、Journal of Computational Biologyに再submit。ここでは査読はすんなり進み無事アクセプト。

まぁ作ったは作ったけど、SUMENERGYに対応できなかったり、リピートはマスクした状態での帰無分布だったりするので、あまり実用的である気はしないです。UTR-UTR相互作用も(1つしかないけど)ポジコンが検出出来てなかったりするし。これは逆に言うと、UTR-UTR相互作用は意外と多いのかもしれないという事ではあるけれど。


11. [Zeng et al. 2018 BMC Genomics]

共著論文。リボソームプロファイリングデータを用いて、リボソームと相互作用するlncRNAを網羅的に同定したよという研究。lncRNAの中にはsmall peptideをcodeする遺伝子があるのではという研究と誤解されてリバイズが大変だった様子。研究計画立案時に関与したが、途中で異動したので貢献度は低め。


10. [Sato et al. 2018 Molecular Biology and Evolution]

共著論文。MitoFish論文(Iwasaki et al. 2013)のアップデート版についての論文。今回は主にMiFish pipelineの話がメインであるが、MitoAnnotatorのアップデートも少ししたという事で共著になった。


9. [Kumagai et al. 2018 The ISME journal]

共著論文。プロテオロドプシンを保有する細菌と保有しない細菌との間で比較ゲノム解析を行い、プロテオロドプシンの生態的意義を追求するという研究。熊谷さんの5年間の集大成で、非常に面白い論文だと思う。熊谷さんがWet系研究室出身という事で、彼が修士のうちはプログラミングを手伝ったり解析方法について議論をしたりなどのサポートをしていた。彼が博士に行ってからは何もしておらず恐縮なのだが(私が研究室を変わった事もあるし)、まとめる時に名前を載せていただく事に。


8. [Fukunaga and Hamada 2017 Bioinformatics]

四本目のFirst Author論文で、全ての部分を担当。英語もほとんど私が書いた文章が残っており、実質的に初めて全部自分で研究をしたことになる。そういう意味で、acceptされた時の嬉しさも一入だった。

学位を取った後は、まずソフトウェア開発よりもデータ解析をしようと思っていて、修士の時に興味を持っていた「mRNA及びpre-mRNAの2次構造形成によるスプライシングの制御メカニズム」について研究を始めようとしていた。その中で最初に取り組んだことは、「一本鎖RNA内での長距離RNA相互作用によって5'ssと3'ssが物理的に近接する事で、正しいスプライシングが起こる事例が知られているが、このようなケースはゲノムワイドにはどの程度存在しているのか?」ということを解析するものだった。厳密には、配列類似性を利用してゲノムレベルで解析した研究はいくつか存在するのだが (例えば Raker et al. 2009 NAR など)、RNA2次構造をきちんと取り扱ったケースはなかったので、RNA accessibilityなどをモデルに組み込むことでより精度良く長距離相互作用が検出可能になるのではないかということを狙ったものである。

既存のRNA-RNA相互作用予測ソフトウェアは、mRNAなど長いRNAを対象にするには遅すぎるため利用できないという話を浜田先生から聞いていたため、浜田先生が以前lncRNAとmRNAの相互作用を網羅的に予測するために作成したパイプラインを利用することに(Terai et al. 2016 BMC Genomics)。このパイプラインを利用して一ヶ月ほど解析をして少し結果が出始めた時点で、このパイプラインがどれほど正当性があるのかについていくつか疑問を抱き始める。たとえば、このパイプラインでは高速化のためにまず配列類似性検索を使ってスクリーニングしてからRNA-RNA相互作用予測をするという流れになっているのだが、スクリーニングの際に用いるパラメーターがRNAのエネルギーパラメーターではなくアライメントの置換行列なので精度が下がっている(パラメーター数が少なく近似精度が低い)。 スクリーニングの部分からRNA energy parameterを使いその後の計算も全て同一のソフトウェアで行えば、計算に無駄がなくなるため高速に、そして精度良く行えるのではないかと思い、スクリーニングというのは実際配列アライメントにおけるseed-and-extensionのseed detectionの部分にあたるということに気づけば、後はもう実際に実装するのみである。

RNA-RNA相互作用予測にseed-and-extensionを用いるというアイデアは全く新しいものであり、精度も速度も良い結果が出たので「これは良い研究をした」と思ってそこそこ上機嫌であった。・・のだが、論文が査読されている間に参加したRNA informaticsの国際会議にて、私と同じアイデアであるseed-and-extensionを利用したRNA-RNA相互作用予測ソフトウェアRIsearch2のポスターを発見してしまい、非常に衝撃を受ける。(しかも相手はリバイズ中だという。私の論文も雑誌投稿前にbioRxivに出しておいたので相手もこっちのことを知っていたのだが。先方もbioRxivで私の論文を見た瞬間同じく非常に衝撃を受けたらしい。念のため言っておくと、アイデアは同じでもアルゴリズムデザインや検証対象が全く異なっており、完全に独立したアイデアである。) あとはどっちが早くacceptされるかというところだったのだが、まぁ順当に先方に先に出されてしまった。(Alkan et al. 2017 NAR) ちょっと残念。

投稿は上からということで、Nature communications→Genome Biology→NARと出して行ったが、どれも即reject。NARに「生物学的な知見がない」という理由で即rejectされたのは「いやNARは必ずしもそういう雑誌じゃないだろ」とちょっと納得行かなかったが、Computational BiologyではなくMethods Onlineに出したからか。今後の投稿戦略に反映させたい。Bioinformaticsは、査読とdecisionが遅くやたら待たされたものの、査読そのものは最初からかなり好意的で特に苦労せずacceptされた。「IntaRNAはstandalone versionだとTuenr99 parameterだけどweb server versionだとTuenr04 parameterだから、Web server versionと比較する必要はないけど記載しておいて」というレビュワーコメントがあったが、このレビュワーはどう考えてもBackofenだと思う。

後続の研究は私自身色々すでに進めており、ソフトウェアの改良からデータ解析など様々な展開が期待される、研究のseedとなる研究かなと思っている。なおスプライシングの話は、後日また誰にもやられていなかったらあらためて取り組みたい。


7. [Fukunaga and Iwasaki 2017 BMC Bioinformatics]

三本目のFirst Author論文。全ての部分を担当したが、相も変わらず英語は岩崎さんに直され私が書いた部分は影も残らなかった。

自分で言うのも気が引けるが、研究を開始した動機は褒められたものではない。Computational Ethologyの研究では、ゲノムデータや遺伝子発現データと違いパブリックで自由に使えるデータがほぼないので、自分で動画を撮影するか共同研究先にお願いして撮影してもらうかしてデータを用意するところからまず始めなければならない。博士二年の時には自分で共同研究先に行き実験系を考え撮影するといったこともしていたのだが、慣れぬ操作ゆえ失敗ばかりで私の根性が続かなかっためにまともな動画が撮影できなかった(結局共同研究先に常駐という形にならなかったのが失敗の最たる原因だろうか)。ではデータを提供してもらうのはどうかというと、GroupTrackerの共同研究をしていた学生さんが修士二年で卒業し、後を引き継いでくれる人がいないという事態になってしまう(なお一年後に修士の学生さんが入ってきて共同研究再開)。つまりはどっちの手段もだめになり手詰まりに陥ったので、残された最後の手段として、唯一存在する動物行動のパブリックデータである線虫の行動データを使って何か研究するという事になったわけである。その結果生まれたのがこの論文ということになる。

そう書くとネガティブな動機しかなかったみたいになってしまい、さすがにひどすぎるのだが、技術的な意味ではさすがにポジティブな動機もあった(でないと、さすがに論文を書く所まではたどりつかない)。当時の私の技術的な興味は、トラッキングをして得られた大規模行動データの解析手法の開発であり、特に先行研究の少ない「教師なし学習の動物行動データへの適用」だった。線虫の行動データ解析研究の中には、その数少ない先行研究の一つ(線虫の行動モチーフを検出するという論文、Brown et al. 2013 PNAS)があり、これを下敷きにしてより良いデータ解析手法を提案できないかというのがポジティブな意味での研究の出発点である。

そのため最初は線虫の行動モチーフを発見するという事が研究目的だったのだが、研究を進めて先行研究と自分が開発した手法を比較していくうちに、先行研究の手法は色々と問題点を抱えている事に気づく。その中でも一番問題だと考えたのが、「なぜ線虫の取りうる姿勢パターンの比較をしないまま姿勢の変化パターンを比較して意味づけをしているのか?」という点である。もし線虫の取りうる姿勢パターンが全然違うのであれば、当然姿勢の変化パターンも全く異なるものとなる。なので、真に意味のある特徴的な姿勢の変化パターンを抽出するには、そもそもの取りうる姿勢パターンが類似しているもの同士で比較する必要があるのに、先行研究ではそれを怠っていたのだ。実際、先行研究で「特徴的な姿勢変化パターンを見せる変異体です!」と主張されていたもののほとんどが、そもそも姿勢パターンそのものが特徴的であった。この先行研究の問題点を直接指摘するように論文を書く事も出来ただろうとは思うが、いささか論点が複雑であるのと、慣れぬ研究分野で偉い人と戦う気力がなかったのとで、暗に先行研究の解析の不備をほのめかすような感じで論文をまとめた(ら、主旨がよくわからない論文になった・・)。

基本的には先行研究の解析手法にはバイアスが入ってますよと言いたい論文なので、生物学的な議論はほぼない。それが災いして、結構rejectを食らった(PlosCB→PNAS→Journal of the Royal Society Interface)が、何とかBMC Bioinformaticsにて拾っていただく形に。ありがたや。研究の内容は真っ当だと思うのだが、あまりにマニアックなのでほぼ引用されそうな気はしない・・。


6. [Hamada et al. 2016 Nucleic Acids Research]

共著論文。RNA配列を一本投げると、Centroidfoldを始めとする色々なRNA二次構造解析ツールが同時に走って結果を返すというWeb serverについての論文。福永の担当箇所は、そのツールの一つであるCapRの開発。組み込んでいただきありがとうございました。


5. [Miya et al. 2015 Royal Society Open Science]

共著論文。環境DNA解析のための、高感度・高精度なプライマーを開発しましたよ、というもの。福永の担当箇所は、設計されたプライマーをin silico評価して、既存のプライマーより優れていることを示した箇所。評価方法も特にひねった所はなく、結果もすぐによいものが得られたので、あまり苦労はしなかった。(論文には書いていないが)解析中にキメラシーケンスをいくつか発見するなど、データベースのクオリティ向上にも貢献できていたりする。「水をバケツ一杯すくっただけで、そこにどのような魚が住んでいるかわかる」という、話がわかりやすく一見驚きの新技術であるため、マスコミなどにも大きく取り上げて頂いた。環境DNA解析は非常に伸び代のある技術で、今後5年間で爆発的に研究が進むことが期待されるため、その先鞭となるような研究に関われたことは光栄です。


4. [Fukunaga et al. 2015 Computational Biology and Chemistry]

二本目のFirst Author論文。動画撮影をのぞき全ての部分を担当。指導教員の今までの研究とは全然関係のないテーマをやり、プロジェクトを主導で立ち上げたという意味では、研究遂行一人立ち記念。(英語についてはかなり岩崎さんに直されたので、論文執筆一人立ちではない・・)

実は最初は、トラッキングソフトウェアを論文にするつもりはなかったりする。既存のソフトウェアがほとんどMatlabで書かれていてあまり自分でいじれなかった事、また、あまりアルゴリズムをきちんとわかっていないソフトウェアをそのまま使うのはよろしくないだろう、と言う事で、(Danket et al. Nature Methods 2009)などで使われていた混合ガウス分布に基づくトラッキングソフトを勉強も兼ねてリインプリする事に。完成させた後に実データにapplyしてみた所、メダカが重なった時にトラッキングソフトウェアが落ちる事に気づき、原因を探っていたらガウス分布の縮退に気づいた、という流れ(実際には固有値が数値計算の結果負になり、それに基づいたままどこかで二乗根を取ろうとしてエラー発生、みたいな感じだった)。問題に気づけば解決策はsimpleだと思う。ガウス分布の縮退についてはPRMLにもきちんと書いてあるが、この問題を論文で取り扱っているのを(少なくともバイオインフォマティクス分野では)見た事がないので、ちょっと面白いと思っている。基礎的な勉強は大事だと再認識。一番大変だったのは、ソフトウェアの精度を比較するため、手動でground truthを作成した部分で、実に一万点以上の座標を計りtxtファイルに打ち込んだ。確認も含め非常に大変な作業であり、Computational Ethologyの重要性を身をもって知る事となった。

論文執筆段階では複数の小型魚類のトラッキングを出来る全うなソフトウェアがなかったので、swapping of identityを防いでいないなどの弱点はあるが、Bioinformaticsも狙えるのではないかな?と思って準備していた。・・が、実にsubmit直前にidTracker(Perez-Escudero et al. Nature Methods 2014)とかいう、とんでもないソフトウェアが出てしまったので、慌てて作戦変更。国際会議での早期決着を図る事にする。最初はGIWに出したのだが、レビュワーの一人が"I am not sure if the topic fits this conference."という一行レビューの下にreject判定を下して来たため、望まぬjournalに割り振られる。内心毒づきながら色々悩んだのだが、APBCの締め切りが近かった事もあり、そちらへ出し直す。結果、CBCとなったが、GIWの時よりはまぁましになってる事、またこれ以上引き延ばすと論文掲載すら不可能になる可能性もあったので、決着へ。投稿戦略、というのは実に難しいと実感。

確かに、Post-processing stepなどは自分でもかなり苦しいと思うが、ill-posed problemの解決のあたりは割ときれいな流れだと思っている。idTrackerは、メダカなど色素が薄い生き物には適用出来ないと言う事もあり(personal communcation)、色々使いようはあるかなとは思う。とりあえずは自分で使って生物学的知見を得る事を目指すべきだろう。


3. [Fukunaga et al. 2014 Genome Biology]

初めてのFirst Author論文で、RNA二次構造の構造プロファイルを計算するソフトウェアをという論文。修士論文を投稿論文にしたもので、研究テーマの原案立案をのぞき全ての部分を担当。

最初はRNAcontext(Kazan et al. PLOS computational Biology 2010)を改良する事が目標だった。つまりモチーフ発見をする所までが研究範囲であり、MEMEをリインプリしてCapRとくっつけていたりしたが、あまり上手く行かなかったのでCapR部分だけでBioinformaticsを目指しソフトウェア論文を書く事に。少しは生物学的結果も必要だろう、と言う事でRfamのデータにCapRをかけたりしていたのだが、(Li et al. RNA 2010)のRIP-ChipデータをCapRで再解析した結果、少し新しい結果が得られる(色々あって、この結果は最終的にunpublishedとなった)。さぁこれで論文を書こうと思っていたら、寺井さん(共著)に「CLIP-seqのデータもやってみたらいいんじゃない?」と言われてそこからCLIP-seqのデータ解析も始める。論文を一通り書き終わり、投稿まであとちょっとかな?と思っていたのだが、木立先生に「色々詰め切れてない部分が多いので、条件を再検討しながら解析を全部やりなおすように」と言われる。仕方がないので、解析を全てやり直してから論文を書き直し、原稿を岩崎さんに持って行ったら「論文がひどすぎて何がいいたいのか全くわからない」と言われる。仕方がないので、尾崎さん(共著)に一週間付きっきりで英語を見てもらって論文を書き直す。その後岩崎さんや浅井先生、木立先生のチェックを受け原稿完成。最初はNARに投稿予定だったのだが、たまたまGenome BiologyがRBPome special issueのsubmissionを受け付けていたので、そちらに投稿。投稿後はレビューが遅かったのを除き、スムーズだった(というか、いい加減なレビュアーだった)。幸いな事に、当該号の表紙も飾り、Biome Magazineでも紹介していただいた。

色々苦労したのは、2つの意味で「研究とは何かわかっていなかった」と言う事だと思っている。1つ目は、研究実施段階で「詰め切る」とか「徹底的に考え、やり尽くす」という事について甘さがあったというか、覚悟が低かったと言う事。2つ目は、論文執筆段階で、論文を書くとはどういう事か、全くわかっていなかったと言う事。ぶっちゃけ何度かあきらめかけたりしたけれど、共著者の皆様を始めとする多くの皆様のサポートのおかげでなんとかacceptされた時に、ようやく研究というものがどういうものなのか、ある程度わかったのかな、と感じた。私をちゃんとした(?)研究者に育ててくれたと言う意味で、やはり思い出深い一本である。(もちろんまだまだ未熟ではありますが・・)

論文出版直後は10人くらいの方からソフトウェアの問い合わせを受けたのだが、2015年3月現在、CapRを利用した研究はpublishされていない。ま、まぁこれからですよ!しかし引用回数もあまり多くないし、少し残念ではある。というか、CapRそのものは、構造プロファイルを求める、というRNA二次構造における一般的な問題を取り扱っているので、別にRBPに限らず色々と解析に使えるはずだが、そう言う事は多分ほとんど伝わっていないと思われる(木立研周辺を除く)。やっぱり、CapRを使って生物学的知見を得た論文を書いて、「こういう解析も出来ますよ!」というのをアピールしていく必要があるんだろうなぁ。


2. [Iwasaki et al. 2013 Molecular Biology and Evolution]

共著論文。担当箇所は、魚類ミトコンドリアゲノムアノテーションパイプラインMitoAnnotatorの開発、及び先行研究ソフトウェアとの比較解析。修士二年の時にアルバイトで開発を始めたのが経緯。非常に高い精度を誇り高速で完全自動、という一見とんでもないソフトウェアだが、パイプラインの中身は(複雑ではあるが)難しい事はやっていない。高精度を出せた最大の原因は、佐藤さん(共著)が250種類ものミトゲノムを手動でアノテーションしてくれていたため、各遺伝子の異常な開始コドンや終止コドンのパターンがかなり見えていた事。また、先行研究がなぜかrRNAも二次構造に基づいて予測しておりそのため大変時間がかかっていた事、だろうか(MitoAnnotatorは一次配列のみに基づいて予測)。Webから使えるようにする際には、山田さん(共著)にリインプリして頂いた。非常に読みにくいコードを渡してしまい申し訳ありませんでした・・。引用回数も多く実際に良く使われており、個人的にはうれしい。


1. [Miya et al. 2013 PLOS ONE]

初めて自分の名前が入った論文。担当箇所は、解析に用いた魚類ミトコンドリアゲノムのアノテーション。実質的には、MitoAnnotatorの開発中に、ソフトウェアの検証としてミトゲノムをアノテーションしたというもの。そのためプロジェクトに関わっている意識がなく、共著にしてあげるよと言われた時にはちょっとびっくりした。