07. 忘備録

《HPCグリッドにジョブ投入時のコマンド》

ssh -l username hpcg.huc.hiroshima-u.ac.jp #ログイン

scp localfile username@133.41.14.46: remotefilename #ファイルアップロード (-r でフォルダごと転送)

qsub ****.sh #ジョブ投入

scp username@133.41.14.46: remotefilename localfile #ファイルダウンロード (-rでフォルダごと転送)

HPCグリッドのCPU性能

Intel Xeon X5570 (46.92GFlops) * 384 =4.5 TFLOPS

参考: Intel Core i7 965 = 72.5-78.3? GFLOPS Intel Core i7 3770K = 93.22? GFLOPS

HPCグリッドは最大で64コアで24時間使用可能。

参考: burn-in 100,000, 10 short chain (1,000 recorded steps every 100 generations), and 5 long chain (10,000 recorded steps every 100 generations)のrunで、64コア使用した場合、約半日(12時間30分)。

《Migrate-N (Beerli and Palczewski 2010) について》

migrate-n-mpiを実行する際のコア数の設定は、実コア数+1。それ以外の設定の場合、値の収束に達しない場合がある(他環境未検証)。

サンプルサイズが少ない集団が含まれると、永久に値の収束に達しない。

マニュアルにはBayesianの方が探索する範囲が広く収束に達しやすいとあるが、設定によっては上手く動かず、Maximum likelihoodの方が早く値が収束する。

linuxのディストリビューションはgeofileの集団名が5 character 以下でなければならない(マニュアルには10文字以下と書いてある)。

《いつも使ってる bibtex2htmlのコマンド》

bibtex2html -nokeywords -nokeys -nobiblinks -noabstract -u

サイクルコンピュータの電池を変えた時のデータ。

《次世代データ解析》

・アセンブルの際のコマンド類

ファイルの結合: cat

アセンブル: trinity

Trinityのコマンド

Trinity --seqType fq \ #シークエンスデータの格納形式

--JM 4G \ # 1CPU当たりのメモリ割り当て量 8×4 = 32GB

--left ***_1.fq \ #ペアエンドリードの片側

--right ***_2.fq \ #ペアエンドリードのもう片側

--CPU 8 \ #CPU数

--output ***_ref #出力ファイル名

・自前Galaxyサーバーの立ち上げ

簡単だが、速度を重視してSSD上などにGalaxy-distを置くとすぐにいっぱいになって引っ越す羽目になる。

PEAR

pear-0.9.5-bin-64' -f merged_1.fq -r merged_2.fq -o both -m200 -n100 -y60G -e -j8 -t100 -b 64

・Galaxy上のBlast+の設定

データベースの設定に少々手間取る。

1) Blastpのデータベースとしてuniprotとnrを取ってくる。

2) uniprotはFASTAファイルを取ってきて、formatdb。nrはnr.29までのデータを全部取ってきて、一つのフォルダに解凍。

formatdbのコマンド

formatdb -i uniprot-sprot.fasta -p T

3) Galaxyのtool-dataフォルダ内にあるblastdb_p.locを編集。

4) Galaxyのadmin内 "View data tables registry"→"blastdb_p.loc"を更新

5*) Galaxyのadmin内 "Reload s tool's configuration"→blast+の項目を選択し更新。

*最後のこの処理をしないとツール上からデータベースが表示されない。ここでかなりスタックした。

《RAxML》

ブートストラップ値を出す時のコマンド

raxmlHPC -m GTRCAT -p 12345 -f b -t <最尤樹のファイル名> -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #最尤樹にブートストラップ値を当てる場合

raxmlHPC -m GTRCAT -J STRICT -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #strict consensus

raxmlHPC -m GTRCAT -J MR -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #majority rule

raxmlHPC -m GTRCAT -J MRE -z <ブートストラップの樹形ファイル> -n <出力ファイル名> #extended majority rule

《TMAPでMapping→SamtoolでSNPcall→GATKでReferenceに書き戻し》

TMAPでIonPGMリードをマッピングする。リードはSolexaQAでクリーニング済み。

TMAPのコマンド

tmap index -f reference.fasta #referenceのfastaファイルにインデックスを付ける。

tmap mapall -f reference.fasta -r read.fastq -i fastq -v -Y -u --prefix-exclude 5 -o 2 stage1 map4 > mapped_data.bam

samtoolsでbamをsort、index。さらに、mpileupでsnp・indelをコール

samtoolsのコマンド

samtools sort mapped_data.bam mapped_data_sorted #bamをソートする

samtools index mapped_data_sorted.bam #indexファイルの作成

samtools mpileup -uf reference.fasta mapped_data_sorted.bam | bcftools view -vcg -> variant.vcf #vcfファイルができる

GATKで書き戻す前に、picardでdictファイルを作成しておく。

picardのコマンド

java -jar picard.jar CreateSequenceDictionary R= reference.fasta O= reference.dict

GATKでSNP・Indelをリファレンスに書き戻す。

GATKのコマンド

java -jar GenomeAnalysisTK.jar -R reference.fasta 0T FastaAlternateReferenceMaker --variant variant.vcf -o variant_seq.fasta

Exchange sam file to bam file

>samtools view -Sb infile.sam > outfile.bam

《Perl》

Perlのモジュールが足りないと怒られる場合は、CPANを利用してインストールすると便利である。

#Webservice/InterMineをインストールする場合

perl -MCPAN -e shell

install Webservice::InterMine