バイオインフォマティクスにおける主要な塩基と塩基対 📂アルゴリズム

バイオインフォマティクスにおける主要な塩基と塩基対

定義

次の五つの塩基を主要な塩基^{canonical Base}と呼ぶ。

プリン塩基: アデニン^adenin $A$, グアニン^guanine $G$
ピリミジン塩基: シトシン^cytosine $C$, チミン^thymine $T$, ウラシル^uracil $U$

説明

チミンはDNAでのみ使われ、ウラシルはRNAでのみ使われる。したがって、データで $T$ か $U$ のどちらが使われているかだけ確認することで、それがDNAかRNAの塩基配列か分かる。

水素結合が可能な二つの塩基が繋がれたものを塩基対^{base Pair}と言う。プリン塩基とピリミジン塩基からそれぞれ一つずつ選ばれ、その中で可能なケースは $A-T, A-U, G-C$ 三つがある。

$A-T$ と $A-U$ は2つの水素結合で、$G-C$ は3つの水素結合で繋がれている。DNAは塩基対によって二重らせんの構造をとっている。そのため、片方の鎖に $A$ があれば、反対側の鎖には $T$ があることが分かる。 $$ A-T \\ C-G \\ C-G \\ G-C \\ T-A \\ T-A \\ A-T \\ C-G $$ 例えば、上のようなDNAサンプルがあると、片方の鎖だけを知っていればいい。だから、データ取得時には左側だけを読んで、次のように記録してもいい:ACCGTTAC二重らせん構造の意義は、「バックアップ」そのものだ。実際にRNAは一本鎖で不安定な構造をしており、問題を起こすことが多いが、DNAは片側の鎖に問題が生じても、反対側の鎖を参照することで、安定して遺伝情報を子孫に伝えられる。