생명정보공학에서의 염기서열
빌드업
- 화학적 합성에 의해 단위체가 반복되어 연결된 고분자를 중합체polymer라고 한다.
- 인산phosphoric Acid은 무기 산소산의 일종으로, 화학식은 $H_{3}PO_{4}$이다.
- 5개의 탄소 원자를 갖는 단당류를 오탄당pentose이라 한다.
- 유전 정보의 기본단위로써 기능하는 분자를 질소 염기nitrogenous base 혹은 줄여서 염기base라 한다.
- 인산-오탄당-염기로 이루어져서 핵산의 단위체가 되는 분자를 뉴클레오타이드nucleotide라 한다.
- 생명 현상이 발생하는데에 있어 필수적인 생체고분자로써, 뉴클레오타이드의 중합체를 핵산nucleic Acid이라고 한다.
- 리보스라는 오탄당을 기반으로 사슬구조를 이루는 핵산을 **리보핵산(Ribo Nucleic Acid, RNA)**이라 한다.
- 뉴클레오타이드의 중합체인 두 개의 긴 가닥이 서로 꼬여있는 이중나선 구조로 되어있는 핵산을 **디옥시리보핵산(Deoxyribo Nucleic Acid, DNA)**이라 한다.
- DNA 혹은 RNA를 유전물질genetic Material이라 한다.
염색체와의 비교
이 설명들을 정의라고 받아들인다면 DNA와 RNA는 유전 물질이기 이전에 실존하는 고분자며, 이들의 단위체인 뉴클레오타이드가 어떤 염기로 구성되어있는지에 따라 그 조합은 천차만별일 것이다. RNA는 순서가 있는 사슬의 형태를 따르며, DNA는 그 사슬 두가닥이 염기쌍을 이루며 이중나선의 구조를 가진다. 이는 유전 물질을 들여다보고 그 순서를 기록함으로써 유전 정보를 얻을 수 있다는 것이다.
이러한 정보화를 기점으로 우리는 화학과 생물학에 결별을 고한다. 염색체와의 차이점에 관심을 둔다면 DNA나 RNA가 꼬이고 뭉쳐져서 덩어리가 된 것이 염색체, 그와 상관 없이 정보를 읽어들여서 적어둔 메모가 염기서열이다. 염색체는 물리적인 것, 염기서열은 데이터적인것이라고 보아도 좋다.
정의
- 유전 물질의 염기들을 기호로 순서대로 나열한 것을 염기서열nucleic Sequence이라고 한다.
주요염기와 문자
생명정보공학의 맥락에서 주요 염기는 다섯 개의 문자 $A, T, G, C, U$ 로 한정된다. 이들은 앞에서부터 순서대로 아데닌, 티민, 구아닌, 사이토신, 유라실을 의미하며, 컴퓨터 공학적으로 보았을 때 정보화된 염기서열은 다섯개의 문자(Character)로 이루어진 문자열(String)이 된다. 데이터 분석가가 다루는 것은 정확히 DNA, RNA가 아니라 그것들의 염기 서열임을 확실히 하도록 하자.
염기 서열을 다룰 때의 가장 일차적인 문제는 이 염기서열이라는 것들의 크기가 결코 작지 않다는 것이다. 가령 인간의 지놈Genome은 그 크기가 무려 33억 염기쌍에 달하는데, 이것을 분석하고 의미 있는 결과를 내기 위해서는 그냥 앞에서부터 뒤로 읽는 식의 무식한 접근보다는 현명한 방법이 있어야 할 것이다.
한편 염기서열의 방향은 상류와 하류를 확인함으로써 특정지을 수 있으니 염기서열이 뒤집힌게 아닐지 걱정할 필요는 없다.