このページはローカルの解析環境を使わずにどこまで細菌ゲノム解析ができるかの試行体験の記録です.
必要PCスペック: ブラウザが快適に使える.
<注意>下記の内容は間違いを含む可能性がありますので,参考程度に自己責任でお願いします.
また,ゲノム解析が体験できる程度であり,学術発表用を目指すのであれば,様々なゲノムアセンブラを使って比較することが重要です.
タダで細菌ゲノム解析
をしてみたい!!!
目次
多少はゲノム解析ができるようになったつもりになった.人に教える機会も少しできた.
パソコンがどんどん高くなる昨今,ちょっとゲノム解析を体験してみたい,というとっかかりのために各自でパソコンを用意するのはハードルがある.
従来通りMac推奨?,最近はwsl2があるからWindowsでLinuxが使えるよ,と私も思う(参考記事を参照).
しかし,ちょっと体験したいだけにもかかわらず,wsl2をインストールして,Miniforgeでcondaを入れて環境構築して,というのはせっかく生じたゲノム解析へのモチベーションを下げてしまうかもしれない.
そのため,ローカル環境を使わずにブラウザだけでどこまでゲノム解析ができるのか試してみた.
参考記事:
バイオインフォマティクス解析に必要なパソコンのスペックは?
https://olvtools.com/documents/pc_spec
Mac vs Windows vs Linux:NGSデータ解析に最適な環境を徹底比較
https://note.com/ozk7311/n/ncb3937758034#ee1c2581-401d-4c58-a42f-66a18fc3f229
普段使っているゲノムアセンブラの1つであるHybracterのgithubを眺めているとGoogle Colab NotebookというGoogle のクラウド サーバー上で実行できることを知った.
1,2時間ほどでゲノムアセンブリができるということだったので試してみた.
Hybracter: https://github.com/gbouras13/hybracter
ロングリードの各種フィルタリング,Flyeによるロングリードアセンブリ,Plassemblerによるプラスミド回収,ロングリードおよびショートリードによるPolishingまで,まるっと進めてくれるパイプライン.まとめて複数のゲノムアセンブリをとりあえず実行する場合にとても便利.
<妥協のないアセンブリを目指すなら以下のツールが有用>
Trycycler: https://github.com/rrwick/Trycycler
Autocycler (こちらがTrycyclerの後継): https://github.com/rrwick/Autocycler
hifiasm (ONT): https://github.com/chhylp123/hifiasm?tab=readme-ov-file#ontonly
https://www.biorxiv.org/content/10.1101/2025.04.14.648685v1
ナノポアリード(R10.4.1)をNCBIからダウンロードして使用する.
※コマンド操作が分かる人はfasterq-dumpなどを使おう.https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump
今回解析する種はAcidovorax sacchari,植物病原細菌では標準的なゲノムサイズ(約5.5 Mb)を持つ.プラスミドはおそらく持たない.
リンク先の下の方にあるDRR576325というアクセッション番号をクリックし,FASTQ downloadというタブからfastqファイルをダウンロードする.
Googleアカウントにログインし,下記リンクにアクセスする.
https://colab.research.google.com/github/gbouras13/hybracter/blob/main/run_hybracter.ipynb
<Google Driveのフォルダを参照しない場合で進める>
左端のフォルダのアイコンをクリックして,フォルダのアップロード(ファイルという文字の下)を選択.
1.1.でダウンロードしたDRR576325.fastq.gzをアップロードする.
あとはコマンドを順番に実行していくだけである.
1. Install hybracterという項目の再生ボタン(▶)をクリック.
1分でHybracterがインストールされる.
2. Download hybracter database and run testsという項目の再生ボタン(▶)をクリック.
plassemblerで使用するプラスミドデータベース(https://ccb-microbe.cs.uni-saarland.de/plsdb2025/)のインストールとテストラン
26分ほどかかった.
今回はロングリードしか使わないので,4. Run Hybracter Longを実行する.
下の方に進むとパラメータを入力するところがあるので,適宜入力する.
<入力項目>
LONG_FASTQ: アップロードしたfastq.gzのファイル名を記入
HYBRACTER_OUT_DIR: 出力フォルダ名なので任意
SAMPLE: サンプル名なので任意
CHROMOSOME: 一番サイズが大きい核ゲノムのゲノムサイズを指定する.今回は5.5 Mb = 5,500,000を記入
MIN_LENGTH: 1000 (デフォルト)
MIN_QUALITY: 9 (デフォルト)
FLYE_MODEL: エラー率に応じて --nano-hqまたは --nano-rawを記入.
Flye 2.9 release (20 Aug 2021)によると--nano-hq mode for ONT Guppy5+ (SUP mode) and Q20 reads (3-5% error rate)
今回はQ9(正確性82%)以上正確性のリードなので--nano-rawを選択
Q20以上(正確性99%以上)にするのであれば--nano-hqを選択
MEDAKA_MODEL: r1041_e82_400bps_sup_v4.2.0 (デフォルト)
※最新のMedakaまたはdorado polishでは,細菌のための --bacteriaというオプションがあり,そちらのほうが良い可能性がある.
参考 Medaka vs Dorado polish(Ryan Wick's bioinformatics blog)
https://rrwick.github.io/2025/02/07/dorado-polish.html
入力がすべて終わったら再生ボタン(▶)をクリック.
約2時間半でランが成功.
※ちなみに同様の解析をそれなりなスペックのPCで解析すると数十分程度で終わる.
出力フォルダ名.zipができるので右クリック➡ダウンロード
解析が完了した状態で放置しているとランタイムの切断と表示される.
このとき再接続をしてしまうとそれまでの解析結果はすべて消えるので注意.
下記の表示が出ていた時は閉じるを選択してから,結果ファイルのダウンロードを行う.
Hybracterのロングリードアセンブリにも使われるFlyeはGalaxy Serverでも実行できる.
解析時間は同じfastqファイルで30分ほどかかった.また,今回はコンプリートゲノムは構築できなかった(コンティグが2つになった).
HybracterではFlyeアセンブリの前にゲノムサイズに合わせたロングリードのフィルタリングがなされる点がアセンブリ結果の違いに影響していると考えられる.
Galaxy Serverで実行したFlyeではカバレッジが144であり,Hybracterのほうではカバレッジが99であった(カバレッジが高ければ高いほど良い結果になるわけではない).
FINAL_OUTPUTというフォルダに"sample_name"_final.fastaができている.
summary.tsvを確認してComplete = Trueになっていれば,コンプリートになっている.
DFASTにアクセスする https://dfast.ddbj.nig.ac.jp/
"sample_name"_final.fastaを選択し,Titleやメールアドレスを入力する.
Taxonomy Checkは分類階級が分かっていれば適宜Taxonを選択.
コンプリートゲノムならdnaAでRotateにチェックを入れる
その他はお好みで選択
アノテーションが終わったら結果のリンクのメールが届くのでアクセスする.JobIDで管理されているおり,一定期間再アクセスが可能.
annotation.zipをダウンロードする.
ゲノムの統計情報(ほぼ無料版アセンブリ)
Total Sequence Length (bp): 5583538
Number of Sequences: 1
Longest Sequences (bp): 5583538
N50 (bp): 5583538
Gap Ratio (%): 0.000000
GCcontent (%): 69.0
Number of CDSs: 4919
Average Protein Length: 344.9
Coding Ratio (%): 91.2
Number of rRNAs: 9
Number of tRNAs: 55
Number of CRISPRs: 3
同じfastq.gzから構築した登録版ゲノムアセンブリのゲノムサイズは5,583,543 bp
https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_042847045.1/
ほぼ無料版アセンブリは登録版アセンブリにかなり近い結果になった!
下記リンクのcompare_assemblies.pyを使用して登録版アセンブリとほぼ無料版アセンブリの塩基の違いを検証してみた.
https://github.com/rrwick/Perfect-bacterial-genome-tutorial/blob/main/scripts/compare_assemblies.py
結果: 8塩基ほど異なっていた.
特にホモポリマーの連続する塩基数に相違点がみられた.
アセンブリ結果が異なっていた要因として,登録アセンブリは平均Q値22にフィルタリングしたリードでゲノムアセンブリを行った点やmedakaのモデルが異なる点(r1041_e82_400bps_sup_v4.3.0 vs. r1041_e82_400bps_sup_v4.2.0)が考えられる.
gbdraw Web Appにアクセスする https://gbdraw.streamlit.app/
Google Colab Notebookもある https://colab.research.google.com/github/satoshikawato/gbdraw/blob/main/gbdraw_colab.ipynb
DFASTの出力ファイルにあるannotation.gbkを入力ファイルとして使用.
適宜パラメータを調整する(なかなか難しいのでとりあえずシンプルに表示)
KEGG pathwayを参照する準備のため,DFASTでアノテーションされた遺伝子(アミノ酸配列)にKEGG Orthologs(K番号)を割り当てる.
BlastKOALA (https://www.kegg.jp/blastkoala/)またはKAAS(https://www.genome.jp/kaas-bin/kaas_main)にアクセスする.
BlastKOALAはgmail等のフリーメールアドレスは使えない点に注意.
DFASTの出力ファイルにあるprotein.faaを入力ファイルとして使用.
Prokaryotesを選択,メールアドレスを入力して"Request for email confirmation"をクリック.
すぐにメールが届くのでジョブをSubmitのリンクをクリックする.
解析が完了するとメールが届くので結果のリンクを開く.
KEGG Mapper Reconstruct Pathwayをクリック.
様々な代謝Pathwayへのリンクが表示される.01100 Metabolic pathwaysの例(右図)
03070 Bacterial secretion systemの例
Dowanloadからko_listがダウンロードしておき,KEGG Mapper Reconstruct (https://www.genome.jp/kegg/mapper/reconstruct.html)でファイルを選択・実行すれば,代謝Pathwayが表示される.リストの頭に#名称で区切れば(リンク先Example files: genelist2.txtを参照),2つのアセンブリを同時に表示し比較できるのでとても便利.
また,GhostKOALAおよびKofamKOALAではデータセットや手法が異なるため結果が異なる.
Version1 (20250918) 作成