Fasta の整理とMUSCLE/ MAFFT でのアライメント

ファイル管理について

私はGenBank からダウンロードしたデータと自前のデータを分けて管理しています。例えば

Diaporthales_LSU.fasta; 自前のデータ→DDBJ に登録するときはこれをアップロードする

Diaporthales_LSU_GenBank.fasta; GenBank からダウンロードしたデータ

自前データは論文執筆時は変動がありますが、すぐに安定します。一方でGenBank からのダウンロードデータは常に変動するため、切り分けて置く方が無難です。後ほど説明しますが、これらは容易に結合することができます。

使用ソフト

Windows ユーザーにはMEGA をお勧めします。MEGA はシーケンスの作成、アライメント編集、モデル推定、分子系統解析まで総合的に扱うことのできる優れたソフトです。詳しくはTOGO TV で基本的な使い方が載せられています。

 2011-07-05 MEGAを使って配列アラインメントおよび系統解析をする http://togotv.dbcls.jp/20110705.html

なお、本サイトでは多領域に基づく解析を目的としているため、MEGA では配列データを並べるまでしか扱いません。アライメントを整える作業はMAFFT を利用します。

メモ MEGA X インストールコマンド on Linux 

もしMEGA 6, 7 がインストールされていれば旧バージョンのアンインストールが必要。

sudo apt remove megacc

そのあと、ダウンロードフォルダを端末で開いてインストールする

sudo dpkg -i megax_10.0.1-1_amd64.deb

ちなみにLinux 版は不安定なことが多いのでWine やvMware 経由でWindows 版を使うことをお勧めします。経験上MEGA 5.2 が一番安定しています。

MAFFT を使ったアライメント

MAFFT の使い方

1. MAFFT 公式サイトにアクセス (→ https://mafft.cbrc.jp/alignment/server/)

2. Input 欄に直接FASTA ファイルを貼り付けるかupload ボタンからFasta をアップロードする

3. アライメントを整えたいFasta をアップロードし、基本設定を選択する

※アライメント中に空白データが含まれていてもアライメント作業に影響はない

4. 設定終了後 [Submit] ボタンを押す

※誤って.phy (phylip 形式) をアップロードした場合は以下のエラー画面が表示される

5. MAFFT server への送信後、解析がキュー (順番待ち) として表示される

6. 絵文字でサーバーの混み具合が分かる (笑顔→空いている、苦しそうな顔→混んでる)

7. MAFFT 終了後は解析のサマリーが表示される

8. Fasta format を右クリックしてアライメントデータをダウンロードする

タンパクコード遺伝子の配列が含まれている場合

鉄則1  codon start = 1 を意識すること

鉄則2 gap はcodon に即しているかを確認すること

推奨1 ノイズは積極的に削除すること

推奨2 順番が入れ替わるのでMEGA で並び替えをすること