配列アラインメントでの置換行列
定義
シーケンスアラインメントスコアを記録する時、マッチとミスマッチの基準となる行列を置換行列substitution matrixと呼ぶ。
例
using BioAlignments
EDNAFULL
BLOSUM45
PAM30
さっさと例を見てみよう。ジュリアにはBioAlignments
というパッケージがあり、欲しい置換行列を簡単に読み込める。DNA分析によく使われるEDNAFULL
やタンパク質シーケンスに使われるBLOSUM
(BLOcks SUbstitution Matrix)、PAM
(Point Accepted Mutation)行列を読み込むと、下記のようになる。
マッチといっても全てのマッチが同じではなく、ミスマッチといっても全てのミスマッチが同じではない。これはある頻度的なインサイトを反映するためだ。情報検索理論などで考えられる例には、キーボード配列によるタイプミスの修正がある。例えば、「juloa」という意味のない単語を考えた場合、QWERTYキーボード上でiとoは隣同士なので、juliaのタイプミスと推測できるようにiとoの間に低いミスマッチペナルティを設定するのは理にかなっている。同様に、juleaもjuliaのタイプミスである可能性があるが、iとeの距離が離れているため、同じタイプミスでもjuloaと比べて偶然間違ったとは思われにくい。