Fasta の整理とMUSCLE/ MAFFT でのアライメント
ファイル管理について
私はGenBank からダウンロードしたデータと自前のデータを分けて管理しています。例えば
Diaporthales_LSU.fasta; 自前のデータ→DDBJ に登録するときはこれをアップロードする
Diaporthales_LSU_GenBank.fasta; GenBank からダウンロードしたデータ
自前データは論文執筆時は変動がありますが、すぐに安定します。一方でGenBank からのダウンロードデータは常に変動するため、切り分けて置く方が無難です。後ほど説明しますが、これらは容易に結合することができます。
使用ソフト
Windows ユーザーにはMEGA をお勧めします。MEGA はシーケンスの作成、アライメント編集、モデル推定、分子系統解析まで総合的に扱うことのできる優れたソフトです。詳しくはTOGO TV で基本的な使い方が載せられています。
2011-07-05 MEGAを使って配列アラインメントおよび系統解析をする http://togotv.dbcls.jp/20110705.html
なお、本サイトでは多領域に基づく解析を目的としているため、MEGA では配列データを並べるまでしか扱いません。アライメントを整える作業はMAFFT を利用します。
メモ MEGA X インストールコマンド on Linux
もしMEGA 6, 7 がインストールされていれば旧バージョンのアンインストールが必要。
sudo apt remove megacc
そのあと、ダウンロードフォルダを端末で開いてインストールする
sudo dpkg -i megax_10.0.1-1_amd64.deb
ちなみにLinux 版は不安定なことが多いのでWine やvMware 経由でWindows 版を使うことをお勧めします。経験上MEGA 5.2 が一番安定しています。
MAFFT を使ったアライメント
MAFFT の使い方
1. MAFFT 公式サイトにアクセス (→ https://mafft.cbrc.jp/alignment/server/)
2. Input 欄に直接FASTA ファイルを貼り付けるかupload ボタンからFasta をアップロードする
3. アライメントを整えたいFasta をアップロードし、基本設定を選択する
※アライメント中に空白データが含まれていてもアライメント作業に影響はない
4. 設定終了後 [Submit] ボタンを押す
※誤って.phy (phylip 形式) をアップロードした場合は以下のエラー画面が表示される
5. MAFFT server への送信後、解析がキュー (順番待ち) として表示される
6. 絵文字でサーバーの混み具合が分かる (笑顔→空いている、苦しそうな顔→混んでる)
7. MAFFT 終了後は解析のサマリーが表示される
8. Fasta format を右クリックしてアライメントデータをダウンロードする
タンパクコード遺伝子の配列が含まれている場合
鉄則1 codon start = 1 を意識すること
鉄則2 gap はcodon に即しているかを確認すること
推奨1 ノイズは積極的に削除すること
推奨2 順番が入れ替わるのでMEGA で並び替えをすること