生物情報学における塩基配列 📂アルゴリズム

生物情報学における塩基配列

ビルドアップ

化学的合成によって単量体が繰り返し連結された高分子をポリマー^polymerと言う。
リン酸^{phosphoric Acid}は無機酸素酸の一種で、化学式は$H_{3}PO_{4}$である。
5つの炭素原子を持つ単糖類をペントース^pentoseと言う。
遺伝情報の基本単位として機能する分子を窒素塩基^{nitrogenous base}、または簡単に塩基^baseと言う。
リン酸-ペントース-塩基からなり、核酸の単位体になる分子をヌクレオチド^nucleotideと言う。
生命現象が発生する上で必須の生体高分子として、ヌクレオチドのポリマーを核酸^{nucleic Acid}と言う。
リボースというペントースを基盤として鎖構造を形成する核酸を**リボ核酸(Ribo Nucleic Acid, RNA)**と言う。
ヌクレオチドのポリマーの二つの長い鎖が互いに絡み合って二重螺旋構造を成す核酸を**デオキシリボ核酸(Deoxyribo Nucleic Acid, DNA)**と言う。
DNAまたはRNAを遺伝物質^{genetic Material}と言う。

染色体との比較

これらの説明を定義と受け入れれば、DNAとRNAは遺伝物質である以前に実在する高分子であり、ヌクレオチドがどのような塩基で構成されているかによって、その組み合わせは無限にあるだろう。RNAは順序がある鎖の形を取り、DNAはその鎖の二つが塩基対を形成し二重螺旋の構造を持つ。これは、遺伝物質を覗き込みその順序を記録することで遺伝情報を得られるということだ。

こうした情報化を起点として、私たちは化学と生物学からの決別を告げる。染色体との違いに関心を持つなら、DNAやRNAが撚り合わさって固まったものが染色体であり、情報を読み取りメモを取る行為が塩基配列である。染色体は物理的なもの、塩基配列はデータ的なものと見ても良い。

定義

遺伝物質の塩基を記号で順番に並べたものを塩基配列^{nucleic Sequence}と言う。

主要な塩基と文字

生命情報工学の文脈では、主要な塩基は5つの文字$A, T, G, C, U$に限定される。これらは前から順にアデニン、チミン、グアニン、シトシン、ウラシルを意味し、コンピュータ科学的に見れば、情報化された塩基配列はこれら5つの文字からなる文字列（String）となる。データ分析者が扱うのは、正確にはDNAやRNAそのものではなく、それらの塩基配列であるということをはっきりさせよう。

塩基配列を扱う際の最も原始的な問題は、これらの配列のサイズが決して小さくないということだ。例えば、人間のゲノムは、そのサイズがなんと33億塩基対に及び、これを分析して意味ある結果を出すためには、単に前から後ろへ読むだけの単純なアプローチよりも賢い方法が必要であろう。

また、塩基配列の方向は上流と下流を確認することで特定できるので、塩基配列が逆転していることを心配する必要はない。