logo

생명정보공학에서의 염기서열 📂알고리즘

생명정보공학에서의 염기서열

빌드업

  1. 화학적 합성에 의해 단위체가 반복되어 연결된 고분자를 중합체polymer라고 한다.
  2. 인산phosphoric Acid은 무기 산소산의 일종으로, 화학식은 $H_{3}PO_{4}$이다.
  3. 5개의 탄소 원자를 갖는 단당류를 오탄당pentose이라 한다.
  4. 유전 정보의 기본단위로써 기능하는 분자를 질소 염기nitrogenous base 혹은 줄여서 염기base라 한다.
  5. 인산-오탄당-염기로 이루어져서 핵산의 단위체가 되는 분자를 뉴클레오타이드nucleotide라 한다.
  6. 생명 현상이 발생하는데에 있어 필수적인 생체고분자로써, 뉴클레오타이드의 중합체를 핵산nucleic Acid이라고 한다.
  7. 리보스라는 오탄당을 기반으로 사슬구조를 이루는 핵산을 **리보핵산(Ribo Nucleic Acid, RNA)**이라 한다.
  8. 뉴클레오타이드의 중합체인 두 개의 긴 가닥이 서로 꼬여있는 이중나선 구조로 되어있는 핵산을 **디옥시리보핵산(Deoxyribo Nucleic Acid, DNA)**이라 한다.
  9. DNA 혹은 RNA를 유전물질genetic Material이라 한다.

염색체와의 비교

이 설명들을 정의라고 받아들인다면 DNA와 RNA는 유전 물질이기 이전에 실존하는 고분자며, 이들의 단위체인 뉴클레오타이드가 어떤 염기로 구성되어있는지에 따라 그 조합은 천차만별일 것이다. RNA는 순서가 있는 사슬의 형태를 따르며, DNA는 그 사슬 두가닥이 염기쌍을 이루며 이중나선의 구조를 가진다. 이는 유전 물질을 들여다보고 그 순서를 기록함으로써 유전 정보를 얻을 수 있다는 것이다.

이러한 정보화를 기점으로 우리는 화학과 생물학에 결별을 고한다. 염색체와의 차이점에 관심을 둔다면 DNA나 RNA가 꼬이고 뭉쳐져서 덩어리가 된 것이 염색체, 그와 상관 없이 정보를 읽어들여서 적어둔 메모가 염기서열이다. 염색체는 물리적인 것, 염기서열은 데이터적인것이라고 보아도 좋다.

정의

  1. 유전 물질의 염기들을 기호로 순서대로 나열한 것을 염기서열nucleic Sequence이라고 한다.

주요염기와 문자

생명정보공학의 맥락에서 주요 염기는 다섯 개의 문자 $A, T, G, C, U$ 로 한정된다. 이들은 앞에서부터 순서대로 아데닌, 티민, 구아닌, 사이토신, 유라실을 의미하며, 컴퓨터 공학적으로 보았을 때 정보화된 염기서열은 다섯개의 문자(Character)로 이루어진 문자열(String)이 된다. 데이터 분석가가 다루는 것은 정확히 DNA, RNA가 아니라 그것들의 염기 서열임을 확실히 하도록 하자.

염기 서열을 다룰 때의 가장 일차적인 문제는 이 염기서열이라는 것들의 크기가 결코 작지 않다는 것이다. 가령 인간의 지놈Genome은 그 크기가 무려 33억 염기쌍에 달하는데, 이것을 분석하고 의미 있는 결과를 내기 위해서는 그냥 앞에서부터 뒤로 읽는 식의 무식한 접근보다는 현명한 방법이 있어야 할 것이다.

한편 염기서열의 방향은 상류와 하류를 확인함으로써 특정지을 수 있으니 염기서열이 뒤집힌게 아닐지 걱정할 필요는 없다.