BLAST

概要

  • Basic Local Alignment Search Tool
  • バイオインフォマティクスでDNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスアライメントを行うためのアルゴリズム
  • またそのアルゴリズムを実装したプログラム
  • クエリー ( 問い合わせ ) シーケンスがデータベースと偶然に一致する確率 “E-value” を算出することで配列類似性の判定を行う

特徴

  • DNAの塩基配列あるいはタンパク質のアミノ酸配列のシーケンスで、ペアワイズのシーケンスアライメントを行う
  • BLAST と同様にペアワイズアライメントを行うためのプログラムには FASTA などがある
  • マルチプルアライメントを行うためのプログラムは、Clustal ( ClustalW、ClustalX ) がある
  • 処理速度を非常に重視しており、正確さより速度を重視している
  • 速度重視であることは膨大なデータが蓄積されているゲノムのシーケンスデータベースに対して検索を行うことを実用的なものとしている

BLASTの違い

種類 クエリー データベース
blastn 塩基 塩基
blastp タンパク質 タンパク質
blastx 塩基(翻訳) タンパク質
tblastn タンパク質 塩基(翻訳)
tblastx 塩基(翻訳) 塩基(翻訳)

アルゴリズム

  • クエリシーケンス ( ターゲットシーケンス ) とシーケンスデータベースを用いる
  • シーケンスデータベース中のシーケンス断片と類似するクエリシーケンス中のシーケンス断片を見つけ出す
    • 当然だが、クエリシーケンスは、シーケンスデータベースと比べてデータ量が非常に小さい
  • クエリシーケンスとシーケンスデータベースとの間で、高い閾値でシーケンスアライメントを行う
  • Smith-Watermanアルゴリズムより少し正確さで劣るが、50倍以上の処理速度を実現する。

第1段階

  • クエリシーケンスを短い固定長データに分割した断片で、シーケンスデータベースを厳密に検索する
  • この固定長データの長さを W ( ワード ) とする
  • W のサイズは、特に指定しない場合、ヌクレオチドでは11、アミノ酸では3
W = 3 で、クエリシーケンス AGTTAC に対してデータベース中に ACTTAG というシーケンスが存在した場合
BLASTアルゴリズムは、TTA という部分データが両シーケンスで共有されていると認識する

第2段階

  • クエリシーケンスと、部分データを共有すると認識したデータベース中のシーケンス群に対してギャップを考慮しない単純なアライメントを行う
  • 第1段階のWの長さの固定長での検索処理を、アライメントのスコアが高くなるように両方向にWのサイズを拡張した処理
  • この段階ではヌクレオチド ( 核酸塩基 ) やアミノ酸の挿入や欠損は考慮しない
  • 第2段階で、ギャップを考慮せずに、スコアの高いアライメントが行えた場合、データベースのシーケンスデータは第3段階の処理対象となる
  • 先述の例では、AGTTAC と ACTTAG はそれぞれ TTA を共に含んでおり、ギャップを考慮しないアライメントは次のようになる。
..AGTTAC..
  | ||| 
..ACTTAG..

第3段階

  • ギャップを考慮したアライメントを行う
  • アライメントを行った後、統計的に有意なアライメント群がユーザに示される

使い方

  • ハツカネズミの未知の遺伝子を発見したときに、ヒトがそのシーケンスと類似した遺伝子をもつかどうかを調べる
  • 手元のタンパク質のアミノ酸配列は、どのバクテリアと系統的に関係があるか?
  • 今シーケンシングして得られたDNAは、どの種に由来するか?
  • 自分が決定した構造 ( もしくは構造モチーフ ) をもつタンパク質を記録した、他の遺伝子はあるか?

参考

Comments