[계통수] Phylogenetic tree란? | MEGA X를 이용한 계통수 생성

[계통수] Phylogenetic tree란? | MEGA X를 이용한 계통수 생성

Phylogenetic tree란?

계통수(phylogenetic tree)를 통해 진화관계를 알 수 있다. 일반적으로 계통수는 1) 여러 종에서 유래한 marker gene sequences에 대해서 2) multiple sequence alignment (MSA)를 진행하고 3) 특정 phylogenetic method 및 4) 특정 모델을 사용하여 얻어진다.

Phylogenetic methods는 아래와 같이 크게 distance-based와 character-based methods로 나뉜다.

Distance-based methods : MSA에서 'pairwise distances를 계산하여 생성된 matrix로부터' tree를 생성 (characters 자체는 무시), 빠르지만 부정확 NJ (Neighbour-Joining) : character-based methods와 비슷한 정확도를 가진다. D istance matrix 를 바탕으로 Q matrix( 전체 leaves 를 고려 ) 를 계산, Q matrix 에서 값이 가장 작은 서로 다른 두개의 노드를 묶어 새로운 노드를 만든다 . 이 새로운 노드와의 거리를 계산하여 distance matrix 를 업데이트한다 . 모든 노드가 묶일 때까지 위의 과정을 반복한다. UPGMA (Unweighted Pair Group Method with Arithmetic Mean) FM (Fitch-Margoliash)

: MSA에서 'pairwise distances를 계산하여 생성된 matrix로부터' tree를 생성 (characters 자체는 무시), 빠르지만 부정확 Character-based methods : MSA에서 '바로' tree를 생성, 느리지만 정확 Maximum Likelihood (ML) : 모델 (tree topology) 을 가정했을 때 데이터 (query sequence) 가 나올 확률인 likelihood 를 최대화할 수 있는 모델을 구한다 . 모든 가능한 trees 를 다 고려하기 때문에 느리다 . Maximum Parsimony (MP)

: MSA에서 '바로' tree를 생성, 느리지만 정확

Phylogenetic method를 정했다면 substitution model/method을 정해야한다. Substitution model/method은 두 sequence 간의 거리나 substitution 확률을 계산하는 데 사용되는 것으로, p-distance, Jukes and Cantor 등이 있다.

계통수 생성

위의 2) 단계까지 진행하여 MSA를 갖고 있다고 해보자. 이를 가지고 MEGA-X 등의 프로그램을 사용하여 계통수를 만들 수 있다.

먼저 프로그램을 실행하여 상단의 [PHYLOGENY]를 클릭한다.

그러면 maximum Likelihood, neighbor-joining 등 여러 종류의 phylogenetic methods를 확인할 수 있다. Maximum Likelihood를 선택하자. 그후, MSA를 import하면 아래와 같은 창을 확인할 수 있다.

이때 [SUBSTITUTION MODEL]>[Model/Method]가 위에서 설명한 substitution model/method에 해당한다. 어느 sequences를 분석하는지에 따라 적절한 model을 선택하면 될 것 같다.

한편 [PHYLOGENY TEST]에서는 bootstrap method로 phylogeny를 test할 수 있다. Bootstrapping이란, 계통수의 각 가지가 얼마나 stable한지 알아보기 위한 방법이다. Alignment의 여러 부분을 임의로 선택해서(resampling) 계통수를 새로 그렸을 때 처음 계산한 계통수와 동일한 모양이 나오는지 확인한다. 이는 bootstrap replications의 수가 100이라면, MSA의 각 columns를 resampling하여 새로운 MSA를 만들고 이로부터 새로운 tree를 생성하는 과정을 100번 반복했을 때, 기존에 계산한 tree와 일치하는 비율을 나타낸 값으로 이해하였다. 즉, bootstrap value가 높을 수록 더 robust한 가지라는 뜻이다.

위 그림에서 branch를 따라 표시된 pairwise distances 및 왼쪽 편에 표시된 percentage bootstrap values를 확인할 수 있다.

참고 사항

계통수의 종류

Cladogram : 진화 관계만 ( 가까운 정도 X, 상대적으로 가까운지 O)

: 진화 관계만 Additive tree : root부터의 거리 다름, FM 혹은 NJ를 통해 unrooted additive tree가 생성될 수 있다.

: root부터의 거리 다름, FM 혹은 NJ를 통해 unrooted additive tree가 생성될 수 있다. Ultrametric tree: root부터의 거리 일정. molecular clock이 절대적이라고 해석 (진화의 속도가 일정), UPGMA를 통해 생성될 수 있다.

용어

Monophyly : 계통수에서 하나의 clade를 일컫는 말

: 계통수에서 하나의 clade를 일컫는 말 Paraphyly : 큰 monophyly – 작은 monophyly

: 큰 monophyly – 작은 monophyly Polyphyly: 나머지 관계

Newick (New Hampshire) format

(A,B,(C,D));

(A:0.1,B:0.2,(C:0.3,D:0.4):0.5);

등의 표현으로 unrooted additive tree를 나타낼 수 있다.

Outgroup

종종 계통수를 그릴 때 outgroup을 설정하는 모습을 볼 수 있다. 이는 unrooted additive tree에서 outgroup을 따로 빼서 계통수를 더 이쁜 모양으로 만들기 위한 목적이다. 예를 들어, 특정 genus의 세균들에 대해 계통수를 그린다면 그 genus와 같은 family에 포함되는 다른 genus에 해당하는 세균도 포함하여 계통수를 그린다. 그후, 다른 genus 그룹(outgroup)만 따로 빼주면 이쁜 모양의 계통수를 얻을 수 있다.

MEGA-X 옵션

MEGA-X에서는 계통수를 확인하는 데 있어 다양한 옵션을 제공한다.

1. Topology only: 계통수를 더 쉽게 알아볼 수 있다.

2. 선택한 branch에서 root를 생성할 수 있다.

3. 선택한 subtree를 flip한다.

728x90

반응형

from http://bioinfoblog.tistory.com/223 by ccl(A) rewrite - 2021-08-09 19:26:29