logo

配列アラインメントでの置換行列 📂アルゴリズム

配列アラインメントでの置換行列

定義

シーケンスアラインメントスコアを記録する時、マッチとミスマッチの基準となる行列を置換行列substitution matrixと呼ぶ。

using BioAlignments

EDNAFULL
BLOSUM45
PAM30

さっさと例を見てみよう。ジュリアにはBioAlignmentsというパッケージがあり、欲しい置換行列を簡単に読み込める。DNA分析によく使われるEDNAFULLやタンパク質シーケンスに使われるBLOSUM(BLOcks SUbstitution Matrix)、PAM(Point Accepted Mutation)行列を読み込むと、下記のようになる。

20201112_195847.png 20201112_195901.png 20201112_195918.png

マッチといっても全てのマッチが同じではなく、ミスマッチといっても全てのミスマッチが同じではない。これはある頻度的なインサイトを反映するためだ。情報検索理論などで考えられる例には、キーボード配列によるタイプミスの修正がある。例えば、「juloa」という意味のない単語を考えた場合、QWERTYキーボード上でiとoは隣同士なので、juliaのタイプミスと推測できるようにiとoの間に低いミスマッチペナルティを設定するのは理にかなっている。同様に、juleaもjuliaのタイプミスである可能性があるが、iとeの距離が離れているため、同じタイプミスでもjuloaと比べて偶然間違ったとは思われにくい。