系統解析の主な流れ

1. 配列データのダウンロード

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=[database]&id=[GI1,GI2,GI3....]&rettype=fasta&retmode=text

[database] をnucleotide

[Gl1,Gl2,Gl3...] をアクセッション番号にする

このURL をブラウザのURL 欄に入力すると、アクセッション番号順でダウンロードできます。

抜けなどもあるかもしれませんので、各自チェックするようにして下さい。

この情報は「YUSUKE KIKUCHI Website: https://sites.google.com/site/yusukekikuchiwebsite/memo/getncbifasta」で得ました。

さらに詳しくはncbi のマニュアルをご覧下さい。


※細かい話

多遺伝子解析をする場合は欠けデータがあることが多いです。その場合はMEGA で対応する列に空白行をあらかじめ追加しておくと後のラベル一括変換も楽に進めることができます。なお、空白データがあったとしてもMAFFT やMUSCLE は問題なく進めることができます。

モバイルルーターではアクセスができない場合があります。Internet Explore を使うとダウンロードできます。おそらくモバイルネットワークを介した場合の圧縮が原因かと思われます。

簡単なTips

example_of_accession

容易にアクセッション番号をダウンロードしたい・・・!

1. ダウンロードしたい領域のアクセッションを一括選択してCtrl+Cでコピーする。

2. エクセルで行列を入れ替えて貼り付けし、縦に並んだアクセッションを横向き貼り付けます [シート2を参照]。

3. これを選択してコピーし、メモ帳に貼り付けます。

4. メモ帳でアクセッション番号間の空きスペース (実はタブです) をコピーする。

5. Ctrl+H で[置換]を呼び出します。ここで検索す文字列欄にコピーしたタブを貼り付ける。

6. 置換後の文字列としてカンマ "," を入力します。

7. 置換後の文字列を[GI1,GI2,GI3...]の部分に貼り付けると容易に指定したアクセッションが一括ダウンロードできます。

8. MEGA で順番等を確認することで抜けをチェックして下さい。

2. FaBox 1.41 を使ったラベル名の一括変換

FaBox はオンライン上でFASTA ファイルのラベルを一括変換できるサイトです。

FaBox (1.41) - an online fasta sequence toolbox
http://users-birc.au.dk/biopv/php/fabox/

[Fasta header replacer] を利用するとFasta のラベルを一括変換できます。

以下がFasta header replacer の主な機能です。

a

あらかじめFasta 中のタクサを並び替えた状態にし、エクセルなどで変換したいラベルを用意しておきます。

Fasta をUpload or paste your fasta formatted sequeces へ

変更したいラベルをInput the new headers, one per sequence へ貼り付けます。

問題が無ければReplace Headers を押すことで下に変換後のFasta が出力され、Save to disk でダウンロードできます。

簡単なTips

example_of_accession

ラベルの一括置換を容易にしたい・・・!

各アクセッションに対応したラベルを用意しておきます。これをFabox の置換後の文字列としてコピーペーストするだけです。