ほぼ無料で楽しむ細菌ゲノム解析

このページはローカルの解析環境を使わずにどこまで細菌ゲノム解析ができるかの試行体験の記録です．

必要PCスペック: ブラウザが快適に使える．

＜注意＞下記の内容は間違いを含む可能性がありますので，参考程度に自己責任でお願いします．

また，ゲノム解析が体験できる程度であり，学術発表用を目指すのであれば，様々なゲノムアセンブラを使って比較することが重要です．

　タダで細菌ゲノム解析

　をしてみたい！！！

0．専用のパソコンを用意しないとゲノム解析はできないのか？

１．Google Colab Notebookを使って細菌ゲノムアセンブリ

1.1. 使用するfastqデータの取得

1.2. Google Colab NotebookでHybracterを実行する

重要: ランタイムの切断

補足: FlyeアセンブラをGalaxy Serverで実行する

2. アセンブリ結果を確認する

3. DFASTで遺伝子アノテーション

おまけ: アセンブリ間の詳細な比較

4. ゲノムプロットを描画する（gbdraw）

5. 代謝経路を参照する（KEGG Mapper）

補足: Reconstruct Pathwayを適宜確認したいとき

補足: blastKOALAおよびKAASではkoの割り当て結果が異なる

0．専用のパソコンを用意しないとゲノム解析はできないのか？

多少はゲノム解析ができるようになったつもりになった．人に教える機会も少しできた．

パソコンがどんどん高くなる昨今，ちょっとゲノム解析を体験してみたい，というとっかかりのために各自でパソコンを用意するのはハードルがある．

従来通りMac推奨？，最近はwsl2があるからWindowsでLinuxが使えるよ，と私も思う（参考記事を参照）．

しかし，ちょっと体験したいだけにもかかわらず，wsl2をインストールして，Miniforgeでcondaを入れて環境構築して，というのはせっかく生じたゲノム解析へのモチベーションを下げてしまうかもしれない．

そのため，ローカル環境を使わずにブラウザだけでどこまでゲノム解析ができるのか試してみた．

参考記事:

バイオインフォマティクス解析に必要なパソコンのスペックは？

https://olvtools.com/documents/pc_spec

Mac vs Windows vs Linux：NGSデータ解析に最適な環境を徹底比較

https://note.com/ozk7311/n/ncb3937758034#ee1c2581-401d-4c58-a42f-66a18fc3f229

１．Google Colab Notebookを使って細菌ゲノムアセンブリ

普段使っているゲノムアセンブラの１つであるHybracterのgithubを眺めているとGoogle Colab NotebookというGoogle のクラウドサーバー上で実行できることを知った．

1，2時間ほどでゲノムアセンブリができるということだったので試してみた．

Hybracter: https://github.com/gbouras13/hybracter

ロングリードの各種フィルタリング，Flyeによるロングリードアセンブリ，Plassemblerによるプラスミド回収，ロングリードおよびショートリードによるPolishingまで，まるっと進めてくれるパイプライン．まとめて複数のゲノムアセンブリをとりあえず実行する場合にとても便利．

＜妥協のないアセンブリを目指すなら以下のツールが有用＞

Trycycler: https://github.com/rrwick/Trycycler

Autocycler (こちらがTrycyclerの後継): https://github.com/rrwick/Autocycler

hifiasm (ONT): https://github.com/chhylp123/hifiasm?tab=readme-ov-file#ontonly

https://www.biorxiv.org/content/10.1101/2025.04.14.648685v1

1.1. 使用するfastqデータの取得

ナノポアリード（R10.4.1）をNCBIからダウンロードして使用する．

※コマンド操作が分かる人はfasterq-dumpなどを使おう．https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump

今回解析する種はAcidovorax sacchari，植物病原細菌では標準的なゲノムサイズ（約5.5 Mb）を持つ．プラスミドはおそらく持たない．

リンク先の下の方にあるDRR576325というアクセッション番号をクリックし，FASTQ downloadというタブからfastqファイルをダウンロードする．

https://www.ncbi.nlm.nih.gov/sra/DRR576325

1.2. Google Colab NotebookでHybracterを実行する

Googleアカウントにログインし，下記リンクにアクセスする．

https://colab.research.google.com/github/gbouras13/hybracter/blob/main/run_hybracter.ipynb

＜Google Driveのフォルダを参照しない場合で進める＞

左端のフォルダのアイコンをクリックして，フォルダのアップロード（ファイルという文字の下）を選択．

1.1.でダウンロードしたDRR576325.fastq.gzをアップロードする．

あとはコマンドを順番に実行していくだけである．

1. Install hybracterという項目の再生ボタン（▶）をクリック．

1分でHybracterがインストールされる．

2. Download hybracter database and run testsという項目の再生ボタン（▶）をクリック．

plassemblerで使用するプラスミドデータベース（https://ccb-microbe.cs.uni-saarland.de/plsdb2025/）のインストールとテストラン

26分ほどかかった．

今回はロングリードしか使わないので，4. Run Hybracter Longを実行する．

下の方に進むとパラメータを入力するところがあるので，適宜入力する．

＜入力項目＞

LONG_FASTQ: アップロードしたfastq.gzのファイル名を記入

HYBRACTER_OUT_DIR: 出力フォルダ名なので任意

SAMPLE: サンプル名なので任意

CHROMOSOME: 一番サイズが大きい核ゲノムのゲノムサイズを指定する．今回は5.5 Mb = 5,500,000を記入

MIN_LENGTH: 1000 （デフォルト）

MIN_QUALITY: 9 （デフォルト）

FLYE_MODEL: エラー率に応じて --nano-hqまたは --nano-rawを記入．

　Flye 2.9 release (20 Aug 2021)によると--nano-hq mode for ONT Guppy5+ (SUP mode) and Q20 reads (3-5% error rate)

　今回はQ9（正確性82%）以上正確性のリードなので--nano-rawを選択

　Q20以上（正確性99％以上）にするのであれば--nano-hqを選択

MEDAKA_MODEL: r1041_e82_400bps_sup_v4.2.0 （デフォルト）

※最新のMedakaまたはdorado polishでは，細菌のための --bacteriaというオプションがあり，そちらのほうが良い可能性がある．

参考　Medaka vs Dorado polish（Ryan Wick's bioinformatics blog）

https://rrwick.github.io/2025/02/07/dorado-polish.html

入力がすべて終わったら再生ボタン（▶）をクリック．

約2時間半でランが成功．

※ちなみに同様の解析をそれなりなスペックのPCで解析すると数十分程度で終わる．

出力フォルダ名.zipができるので右クリック➡ダウンロード

重要: ランタイムの切断

解析が完了した状態で放置しているとランタイムの切断と表示される．

このとき再接続をしてしまうとそれまでの解析結果はすべて消えるので注意．

下記の表示が出ていた時は閉じるを選択してから，結果ファイルのダウンロードを行う．

補足: FlyeアセンブラをGalaxy Serverで実行する

https://usegalaxy.org/?tool_id=toolshed.g2.bx.psu.edu%2Frepos%2Fbgruening%2Fflye%2Fflye%2F2.6&version=2.6

Hybracterのロングリードアセンブリにも使われるFlyeはGalaxy Serverでも実行できる．

解析時間は同じfastqファイルで30分ほどかかった．また，今回はコンプリートゲノムは構築できなかった（コンティグが2つになった）．

HybracterではFlyeアセンブリの前にゲノムサイズに合わせたロングリードのフィルタリングがなされる点がアセンブリ結果の違いに影響していると考えられる．

Galaxy Serverで実行したFlyeではカバレッジが144であり，Hybracterのほうではカバレッジが99であった（カバレッジが高ければ高いほど良い結果になるわけではない）．

2. アセンブリ結果を確認する

FINAL_OUTPUTというフォルダに"sample_name"_final.fastaができている．

summary.tsvを確認してComplete = Trueになっていれば，コンプリートになっている．

3. DFASTで遺伝子アノテーション

DFASTにアクセスする https://dfast.ddbj.nig.ac.jp/

"sample_name"_final.fastaを選択し，Titleやメールアドレスを入力する．

Taxonomy Checkは分類階級が分かっていれば適宜Taxonを選択．

コンプリートゲノムならdnaAでRotateにチェックを入れる

その他はお好みで選択

アノテーションが終わったら結果のリンクのメールが届くのでアクセスする．JobIDで管理されているおり，一定期間再アクセスが可能．

annotation.zipをダウンロードする．

ゲノムの統計情報（ほぼ無料版アセンブリ）

Total Sequence Length (bp): 5583538

Number of Sequences: 1

Longest Sequences (bp): 5583538

N50 (bp): 5583538

Gap Ratio (%): 0.000000

GCcontent (%): 69.0

Number of CDSs: 4919

Average Protein Length: 344.9

Coding Ratio (%): 91.2

Number of rRNAs: 9

Number of tRNAs: 55

Number of CRISPRs: 3

同じfastq.gzから構築した登録版ゲノムアセンブリのゲノムサイズは5,583,543 bp

https://www.ncbi.nlm.nih.gov/datasets/genome/GCF_042847045.1/

ほぼ無料版アセンブリは登録版アセンブリにかなり近い結果になった！

おまけ: アセンブリ間の詳細な比較

下記リンクのcompare_assemblies.pyを使用して登録版アセンブリとほぼ無料版アセンブリの塩基の違いを検証してみた．

https://github.com/rrwick/Perfect-bacterial-genome-tutorial/blob/main/scripts/compare_assemblies.py

結果: 8塩基ほど異なっていた．

特にホモポリマーの連続する塩基数に相違点がみられた．

アセンブリ結果が異なっていた要因として，登録アセンブリは平均Q値22にフィルタリングしたリードでゲノムアセンブリを行った点やmedakaのモデルが異なる点（r1041_e82_400bps_sup_v4.3.0 vs. r1041_e82_400bps_sup_v4.2.0）が考えられる．

4. ゲノムプロットを描画する（gbdraw）

gbdraw Web Appにアクセスする　https://gbdraw.streamlit.app/

Google Colab Notebookもある　https://colab.research.google.com/github/satoshikawato/gbdraw/blob/main/gbdraw_colab.ipynb

DFASTの出力ファイルにあるannotation.gbkを入力ファイルとして使用．

適宜パラメータを調整する（なかなか難しいのでとりあえずシンプルに表示）

5. 代謝経路を参照する（KEGG Mapper）

KEGG pathwayを参照する準備のため，DFASTでアノテーションされた遺伝子（アミノ酸配列）にKEGG Orthologs（K番号）を割り当てる．

BlastKOALA (https://www.kegg.jp/blastkoala/)またはKAAS（https://www.genome.jp/kaas-bin/kaas_main）にアクセスする．

BlastKOALAはgmail等のフリーメールアドレスは使えない点に注意．

DFASTの出力ファイルにあるprotein.faaを入力ファイルとして使用．

Prokaryotesを選択，メールアドレスを入力して"Request for email confirmation"をクリック．

すぐにメールが届くのでジョブをSubmitのリンクをクリックする．

解析が完了するとメールが届くので結果のリンクを開く．

KEGG Mapper Reconstruct Pathwayをクリック．

様々な代謝Pathwayへのリンクが表示される．01100 Metabolic pathwaysの例（右図）

03070 Bacterial secretion systemの例

補足: Reconstruct Pathwayを適宜確認したいとき

Dowanloadからko_listがダウンロードしておき，KEGG Mapper Reconstruct (https://www.genome.jp/kegg/mapper/reconstruct.html)でファイルを選択・実行すれば，代謝Pathwayが表示される．リストの頭に#名称で区切れば（リンク先Example files: genelist2.txtを参照），2つのアセンブリを同時に表示し比較できるのでとても便利．

補足: blastKOALAおよびKAASではkoの割り当て結果が異なる

また，GhostKOALAおよびKofamKOALAではデータセットや手法が異なるため結果が異なる．

Version1 (20250918) 　作成

Page updated

Google Sites

Report abuse