バイオインフォマティクスにおける主要な塩基と塩基対
定義
次の五つの塩基を主要な塩基canonical Baseと呼ぶ。
- プリン塩基: アデニンadenin $A$, グアニンguanine $G$
- ピリミジン塩基: シトシンcytosine $C$, チミンthymine $T$, ウラシルuracil $U$
説明
チミンはDNAでのみ使われ、ウラシルはRNAでのみ使われる。したがって、データで $T$ か $U$ のどちらが使われているかだけ確認することで、それがDNAかRNAの塩基配列か分かる。
水素結合が可能な二つの塩基が繋がれたものを塩基対base Pairと言う。プリン塩基とピリミジン塩基からそれぞれ一つずつ選ばれ、その中で可能なケースは $A-T, A-U, G-C$ 三つがある。
$A-T$ と $A-U$ は2つの水素結合で、$G-C$ は3つの水素結合で繋がれている。DNAは塩基対によって二重らせんの構造をとっている。そのため、片方の鎖に $A$ があれば、反対側の鎖には $T$ があることが分かる。 $$ A-T \\ C-G \\ C-G \\ G-C \\ T-A \\ T-A \\ A-T \\ C-G $$ 例えば、上のようなDNAサンプルがあると、片方の鎖だけを知っていればいい。だから、データ取得時には左側だけを読んで、次のように記録してもいい:ACCGTTAC二重らせん構造の意義は、「バックアップ」そのものだ。実際にRNAは一本鎖で不安定な構造をしており、問題を起こすことが多いが、DNAは片側の鎖に問題が生じても、反対側の鎖を参照することで、安定して遺伝情報を子孫に伝えられる。