Windows上で動作するLinux環境であるWSL2を利用して、手元のfastaファイルでblastをできるようにする。
参考:https://qiita.com/zakoken/items/61141df6aeae9e3f8e36
コマンドプロンプトを起動する
wsl --install
と入力。管理者権限を求められるので実行。再起動するようにメッセージが出るので、再起動する。
再起動後に、インストールプレセスが進み、Ubuntuが起動する。ユーザー名とパスワードを設定する。
sudo apt update
を実行する。管理者パスワードを聞かれるので入力する。apt updateを管理者権限で実行(sudo, superuser do)。aptはソフトウェアの管理ツール。apt updateで、アップデート可能なパッケージリストを更新する
sudo apt upgrade
を実行して、更新可能なパッケージをアップデートする。
sudo apt update と sudo apt upgrade は定期的に行う。
以降は、UbuntuというアプリがWindowsにインストールされているので、それを起動する。
参考: https://qiita.com/kazumacchi/items/0e1c3a96bfd5cf4ff3b6
brewはパッケージ管理ツール。必要な基本ソフトが簡単に導入できる。
インストールに必要なものをUbuntuにインストール
sudo apt install build-essential procps curl file git
brewのインストール:HP( https://brew.sh/ja/ )の呪文を貼り付ける
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
いろいろ表示される。
最後の ==> Next steps: にある指示に従って実行する
以下の2行でパスを指定。環境に応じて自動でスクリプトが変更されるのでコピペで実行。
(echo; echo 'eval ...
eval "$(/home/linuxbrew/ ...
# バイオインフォ系のソフトをインストールできるように、参照サイトを追加
brew tap brewsci/bio
# blastとseqkitをインストール
brew install blast
brew install seqkit
seqkitはfastaファイルの操作ツールとして、現状のスタンダード
参考:https://kazumaxneo.hatenablog.com/entry/2017/08/08/235042
ローカルデータベースの作成
手元に、longest_orfs.pep という、blastしたいアミノ酸配列のfasta形式ファイルがあるとする。fasta形式は、>name 改行 sequence
まずblast作業をするディレクトリ(フォルダ)をつくる
# ディレクトリの作成
mkdir blast
# ディレクトリへ移動
cd blast
# ディレクトリをwindows上で開く
explorer.exe .
ここにlongest_orfs.pep をコピーし、以下の手順でblastのデータベースを作成する
# ディレクトリの作成
mkdir blastdb
# データベースの作成 -out で指定するデータベース名は任意に変更できる
makeblastdb -in longest_orfs.pep -out blastdb/longest_orfs.pep -dbtype prot
次に、query.fastaに、探索したい配列をfasta形式で準備する。
#blastの実行 query.fastaとquery.blastp.txtはこちらで指定するファイル名なので、使いやすいように変更する。
blastp -query query.fasta -db blastdb/longest_orfs.pep > query.blastp.txt
blastの結果、TRINITY_DN4421_c0_g1_i1.p1 といった名前のタンパクがHitしたとする。
この形式はTrinityによるde novoアセンブルしたあとに、TransDecoderでORF予測した際のタンパク名である。
g1までが遺伝子名、i1がisoform番号、p1がタンパク番号である。
fastaファイルから該当配列を切り出す。longest_orfs.pep に対応するCDS配列をlongest_orfs.cds、cDNA配列をlongest_orfs.faとする。同じフォルダに入れておく。
seqkit grep -nrp TRINITY_DN4421_c0_g1_i1.p1 longest_orfs.pep
seqkit grep -nrp TRINITY_DN4421_c0_g1_i1 longest_orfs.cds
seqkit grep -nrp TRINITY_DN4421_c0_g1_i1 longest_orfs.fa
#全isofomsのcDNA配列を取得
seqkit grep -nrp TRINITY_DN4421_c0_g1 longest_orfs.fa
保存したい場合は、コマンドの最後に、 > filename.txt とする。