WSL2で

ローカルブラスト

Windows上で動作するLinux環境であるWSL2を利用して、手元のfastaファイルでblastをできるようにする。

WSL2のインストール

参考：https://qiita.com/zakoken/items/61141df6aeae9e3f8e36

コマンドプロンプトを起動する

wsl --install

と入力。管理者権限を求められるので実行。再起動するようにメッセージが出るので、再起動する。

再起動後に、インストールプレセスが進み、Ubuntuが起動する。ユーザー名とパスワードを設定する。

sudo apt update

を実行する。管理者パスワードを聞かれるので入力する。apt updateを管理者権限で実行（sudo, superuser do）。aptはソフトウェアの管理ツール。apt updateで、アップデート可能なパッケージリストを更新する

sudo apt upgrade

を実行して、更新可能なパッケージをアップデートする。

sudo apt update と sudo apt upgrade は定期的に行う。

以降は、UbuntuというアプリがWindowsにインストールされているので、それを起動する。

brewのインストール

参考： https://qiita.com/kazumacchi/items/0e1c3a96bfd5cf4ff3b6

brewはパッケージ管理ツール。必要な基本ソフトが簡単に導入できる。

インストールに必要なものをUbuntuにインストール

sudo apt install build-essential procps curl file git

brewのインストール：HP（ https://brew.sh/ja/ ）の呪文を貼り付ける

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

いろいろ表示される。
最後の ==> Next steps: にある指示に従って実行する

以下の２行でパスを指定。環境に応じて自動でスクリプトが変更されるのでコピペで実行。

(echo; echo 'eval ...
eval "$(/home/linuxbrew/ ...

# バイオインフォ系のソフトをインストールできるように、参照サイトを追加
brew tap brewsci/bio

# blastとseqkitをインストール
brew install blast
brew install seqkit

seqkitはfastaファイルの操作ツールとして、現状のスタンダード
参考：https://kazumaxneo.hatenablog.com/entry/2017/08/08/235042

blastの実行

ローカルデータベースの作成

手元に、longest_orfs.pep という、blastしたいアミノ酸配列のfasta形式ファイルがあるとする。fasta形式は、>name 改行 sequence

まずblast作業をするディレクトリ（フォルダ）をつくる

# ディレクトリの作成
mkdir blast

# ディレクトリへ移動
cd blast

# ディレクトリをwindows上で開く
explorer.exe .

ここにlongest_orfs.pep をコピーし、以下の手順でblastのデータベースを作成する

# ディレクトリの作成
mkdir blastdb

# データベースの作成　-out で指定するデータベース名は任意に変更できる
makeblastdb -in longest_orfs.pep -out blastdb/longest_orfs.pep -dbtype prot

次に、query.fastaに、探索したい配列をfasta形式で準備する。

#blastの実行 query.fastaとquery.blastp.txtはこちらで指定するファイル名なので、使いやすいように変更する。
blastp -query query.fasta -db blastdb/longest_orfs.pep > query.blastp.txt

seqkitによる配列の切り出し

blastの結果、TRINITY_DN4421_c0_g1_i1.p1 といった名前のタンパクがHitしたとする。
この形式はTrinityによるde novoアセンブルしたあとに、TransDecoderでORF予測した際のタンパク名である。
g1までが遺伝子名、i1がisoform番号、p1がタンパク番号である。

fastaファイルから該当配列を切り出す。longest_orfs.pep に対応するCDS配列をlongest_orfs.cds、cDNA配列をlongest_orfs.faとする。同じフォルダに入れておく。

seqkit grep -nrp TRINITY_DN4421_c0_g1_i1.p1 longest_orfs.pep

seqkit grep -nrp TRINITY_DN4421_c0_g1_i1 longest_orfs.cds

seqkit grep -nrp TRINITY_DN4421_c0_g1_i1 longest_orfs.fa

#全isofomsのcDNA配列を取得
seqkit grep -nrp TRINITY_DN4421_c0_g1 longest_orfs.fa

保存したい場合は、コマンドの最後に、 > filename.txt とする。

Page updated

Google Sites

Report abuse