07. 忘備録
《HPCグリッドにジョブ投入時のコマンド》
ssh -l username hpcg.huc.hiroshima-u.ac.jp #ログイン
scp localfile username@133.41.14.46: remotefilename #ファイルアップロード (-r でフォルダごと転送)
qsub ****.sh #ジョブ投入
scp username@133.41.14.46: remotefilename localfile #ファイルダウンロード (-rでフォルダごと転送)
HPCグリッドのCPU性能
Intel Xeon X5570 (46.92GFlops) * 384 =4.5 TFLOPS
参考: Intel Core i7 965 = 72.5-78.3? GFLOPS Intel Core i7 3770K = 93.22? GFLOPS
HPCグリッドは最大で64コアで24時間使用可能。
参考: burn-in 100,000, 10 short chain (1,000 recorded steps every 100 generations), and 5 long chain (10,000 recorded steps every 100 generations)のrunで、64コア使用した場合、約半日(12時間30分)。
《Migrate-N (Beerli and Palczewski 2010) について》
migrate-n-mpiを実行する際のコア数の設定は、実コア数+1。それ以外の設定の場合、値の収束に達しない場合がある(他環境未検証)。
サンプルサイズが少ない集団が含まれると、永久に値の収束に達しない。
マニュアルにはBayesianの方が探索する範囲が広く収束に達しやすいとあるが、設定によっては上手く動かず、Maximum likelihoodの方が早く値が収束する。
linuxのディストリビューションはgeofileの集団名が5 character 以下でなければならない(マニュアルには10文字以下と書いてある)。
《いつも使ってる bibtex2htmlのコマンド》
bibtex2html -nokeywords -nokeys -nobiblinks -noabstract -u
サイクルコンピュータの電池を変えた時のデータ。
《次世代データ解析》
・アセンブルの際のコマンド類
ファイルの結合: cat
アセンブル: trinity
Trinityのコマンド
Trinity --seqType fq \ #シークエンスデータの格納形式
--JM 4G \ # 1CPU当たりのメモリ割り当て量 8×4 = 32GB
--left ***_1.fq \ #ペアエンドリードの片側
--right ***_2.fq \ #ペアエンドリードのもう片側
--CPU 8 \ #CPU数
--output ***_ref #出力ファイル名
・自前Galaxyサーバーの立ち上げ
簡単だが、速度を重視してSSD上などにGalaxy-distを置くとすぐにいっぱいになって引っ越す羽目になる。
PEAR
pear-0.9.5-bin-64' -f merged_1.fq -r merged_2.fq -o both -m200 -n100 -y60G -e -j8 -t100 -b 64
・Galaxy上のBlast+の設定
データベースの設定に少々手間取る。
1) Blastpのデータベースとしてuniprotとnrを取ってくる。
2) uniprotはFASTAファイルを取ってきて、formatdb。nrはnr.29までのデータを全部取ってきて、一つのフォルダに解凍。
formatdbのコマンド
formatdb -i uniprot-sprot.fasta -p T
3) Galaxyのtool-dataフォルダ内にあるblastdb_p.locを編集。
4) Galaxyのadmin内 "View data tables registry"→"blastdb_p.loc"を更新
5*) Galaxyのadmin内 "Reload s tool's configuration"→blast+の項目を選択し更新。
*最後のこの処理をしないとツール上からデータベースが表示されない。ここでかなりスタックした。
《RAxML》
ブートストラップ値を出す時のコマンド
raxmlHPC -m GTRCAT -p 12345 -f b -t <最尤樹のファイル名> -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #最尤樹にブートストラップ値を当てる場合
raxmlHPC -m GTRCAT -J STRICT -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #strict consensus
raxmlHPC -m GTRCAT -J MR -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #majority rule
raxmlHPC -m GTRCAT -J MRE -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #extended majority rule
《TMAPでMapping→SamtoolでSNPcall→GATKでReferenceに書き戻し》
TMAPでIonPGMリードをマッピングする。リードはSolexaQAでクリーニング済み。
TMAPのコマンド
tmap index -f reference.fasta #referenceのfastaファイルにインデックスを付ける。
tmap mapall -f reference.fasta -r read.fastq -i fastq -v -Y -u --prefix-exclude 5 -o 2 stage1 map4 > mapped_data.bam
samtoolsでbamをsort、index。さらに、mpileupでsnp・indelをコール
samtoolsのコマンド
samtools sort mapped_data.bam mapped_data_sorted #bamをソートする
samtools index mapped_data_sorted.bam #indexファイルの作成
samtools mpileup -uf reference.fasta mapped_data_sorted.bam | bcftools view -vcg -> variant.vcf #vcfファイルができる
GATKで書き戻す前に、picardでdictファイルを作成しておく。
picardのコマンド
java -jar picard.jar CreateSequenceDictionary R= reference.fasta O= reference.dict
GATKでSNP・Indelをリファレンスに書き戻す。
GATKのコマンド
java -jar GenomeAnalysisTK.jar -R reference.fasta 0T FastaAlternateReferenceMaker --variant variant.vcf -o variant_seq.fasta
Exchange sam file to bam file
>samtools view -Sb infile.sam > outfile.bam
《Perl》
Perlのモジュールが足りないと怒られる場合は、CPANを利用してインストールすると便利である。
#Webservice/InterMineをインストールする場合
perl -MCPAN -e shell
install Webservice::InterMine