Written by nodejs-style
on 2021-09-28

그래프 이론

서로소 집합 [union-find]

수학에서 서로소 집합(Disjoint Sets)란 공통 원소가 없는 두 집합을 의미한다.

예를들어 {1, 2}와 {3, 4}는 서로소 관계이다. {1, 2}와 {2, 3}은 2라는 공통 원소가 있으므로 서로소 관계가 아니다.

이제, 서로소 집합 자료구조를 알기 전에 서로소 집합 개념을 알아야 한다.

서로소 집합 자료구조란 서로소 부분 집합들로 나누어진 원소들의 데이터를 처리하기 위한 자료구조 이다.

서로소 집합 자료 구조는 union과 find 이 2개의 연산으로 조작할 수 있다. union(합집합) 연산은 2개의 원소가 포함된 집합을 하나의 집합으로 합치는 연산이다. find(찾기)연산은 특정한 원소가 속한 집합이 어떤 집합인지 알려주는 연산이다. 그렇기 때문에 서로소 자료구조는 union-find(합치기-찾기) 자료구조라고도 불린다.

서로소 집합 자료구조

서로소 집합 자료구조를 구현할 때는 트리 자료구조를 이용하여 집합을 표현한다. 서로소집합 계산 알고리즘은 다음과 같다.

1. union(합집합) 연산을 확인하여, 서로 연결된 두 노드 A, B를 확인한다.

1) A와 B의 루트 노드 A',B'를 각각 찾는다.

2) A'를 B'의 부모 노드로 설정한다. (B'가 A'를 가리키도록 한다.)

2. 모든 union 연산을 처리할 때 까지 1번과정을 반복한다.

이것이 트리를 이용해 서로소 집합을 계산하는 알고리즘이다. 또한 일반적으로 A'와 B' 중 더 번호가 작은 원소가 부모노드가 되도록 구현한다. ( A'가 1, B'가 3이면 B'가 A'를 가리키도록 하며 가리킨다는 것은 부모노드로 설정한다는 것이다)

예를들어

{1, 2, 3, 4, 5, 6} 이란 집합이 있고 다음 4개의 연산이 주어젔다고 하자.

union 1, 4 union 2, 4

union 2, 3 union 5, 6

이 연산은 1, 4와 2, 4와 2, 3 그리고 5, 6이 같은 집합이라는 의미이다.

(각 원소는 노드, union연산은 간선으로 표현해 그래프로 바꾸어 생각할 수도있다.)

트리 구조상 번호가 작은 노드가 부모가 되고, 번호가 큰 노드가 자식이 된다.

이 그림을 보면 노드간의 관계를 빠르게 확인 할 수 있다.

또한 전체원소가 {1, 2, 3, 4} 그리고 {5, 6} 두 집합으로 나누어지는 것을 알 수있다. 노드 3은 1과 간접적으로 연결되어 같은집합으로 간주한다. 반면에 노드 1과 5는 연결되어 있지 않기 때문에 서로 다른 집합이라고 이해할 수 있다.

조금더 구체적인 알고리즘의 동작과정을 단계별로 보면 다음과같다.

step0. 초기 단계에서 노드의 개수(V) 크기의 부모 테이블을 초기화 하고 자기 자신을 부모로 가지도록 한다. 주의 해야할 것은 부모 테이블은 말 그대로 부모에 대한 정보만 담고있다(다시말해 특정한 노드의 부모에대해 저장) 실제로 루트를 확인할 때는 재귀적으로 거슬러 올라가 최종 루트 노드를 찾아야한다.

노드 번호 1 2 3 4 5 6 6부모 1 2 3 4 5 6

step1. union 1 4

첫번 째 연산을 수행하여 1과 4를 합친다. 이때 노드 1과 노드 4의 루트 노드를 각각 찾고 더 큰 루트 노드 4의 부모를 1로 설정한다.

노드 번호 1 2 3 4 5 6 6부모 1 2 3 1 5 6

step2. union 2 3

2와 3을 합친다. 2와 3의 루트 노드는 각각 2와 3이다. 따라서 루트 노드 3의 부모를 2로 설정한다.

노드 번호 1 2 3 4 5 6 6부모 1 2 2 1 5 6

step3. union 2 4

이번엔 2와 4를 합친다. 따라서 노드 2, 4의 루트 노드를 각각 찾으면 된다. 현재 루트 노드는 각각 2와 1로 더 큰 번호인 루트 노드 2의 부모를 1로 설정한다.

노드 번호 1 2 3 4 5 6 6부모 1 1 2 1 5 6

step4. union 5 6

마지막으로 5와 6을 합친다. 각각 루트노드는 5,6 이므로 큰 번호에 해당하는 루트 노드6의 부모를 5로 설정한다.

노드 번호 1 2 3 4 5 6 6부모 1 1 2 1 5 5

이를 알고리즘 소스코드로 구현 하면 다음과 같다.

# 특정 원소가 속한 집합을 찾기

def find_parent ( parent , x ):

# 루트 노드가 아니라면, 루트노드를 찾을 때까지 재귀적으로 호출(경로 압축법 사용)

if parent [ x ]!= x :

parent [ x ]= find_parent ( parent , parent [ x ])

return parent [ x ]

# 두 원소가 속한 집합을 합치기

def union_parent ( parent , a , b ):

a = find_parent ( parent , a )

b = find_parent ( parent , b )

if a < b :

parent [ b ]= a

else :

parent [ a ]= b

# 노드의 개수와 간선(union연산)의 개수 입력받기

v , e = map ( int , input (). split ())

parent =[ 0 ]*( v + 1 ) # 부모 테이블 초기화

# 부모 테이블을 자기 자신으로 초기화

for i in range ( 1 , v + 1 ):

parent [ i ]= i

# union연산을 각각 수행

for i in range ( e ):

a , b = map ( int , input (). split ())

union_parent ( parent , a , b )

# 각 원소가 속한 집합 출력

print ( '각 원소가 속한 집합 :' , end = '' )

for i in range ( 1 , v + 1 ):

print ( find_parent ( parent , i ), end = ' ' )

print ()

# 부모 테이블 내용 출력

print ( '부모 테이블 :' , end = '' )

for i in range ( 1 , v + 1 ):

print ( parent [ i ], end = ' ' )

서로소 집합 알고리즘의 시간 복잡도

노드의 개수가 V개이고 최대 V-1개의 union연산과 M개의 find연산이 있을대 시간복잡도는 다음과 같다.

O(V+M(1+log 2-M/V V))

서로소 집합을 활용한 사이클 판별

서로소 집합은 다양한 알고리즘에 사용된다, 특히 무방향 그래프 내의 사이클 판별에 사용할 수 있다. 앞서 union연산은 그래프의 간선으로 표현될 수 있다고 했다. 따라서 간선을 하나씩 확인하면서 두 노드가 포함되어 있는 집합을 합치는 과정을 반복하는 것만으로도 사이클을 판별할 수 있다. 알고리즘은 다음과 같다.

1. 각 간선을 확인하며 두 노드의 루트 노드를 확인한다.

1) 루트노드가 서로 다르다면 두 노드에 대하여 union연산을 수행한다.

2) 루트노드가 서로 같다면 cycle이 발생한 것이다.

2. 그래프에 포함되어 있는 모든 간선에 대하여 1번과정을 반복한다.

이러한 사이클 판별 알고리즘은 간선의 개수가 E개일 때 모든 간선을 하나씩 확인하며, 매 간선에 대하여 union 및 find함수를 호출하는 방식으로 작동한다. 소스코드로 구현하면 다음과 같다.

# 특정 원소가 속한 집합을 찾기

def find_parent ( parent , x ):

if parent [ x ]!= x :

parent [ x ]= find_parent ( parent , parent [ x ])

return parent [ x ]

# 두 원소가 속한 집합을 합치기

def union_parent ( parent , a , b ):

a = find_parent ( parent , a )

b = find_parent ( parent , b )

if a < b :

parent [ b ]= a

else :

parent [ a ]= b

# 노드의 개수와 간선(union연산)의 개수 입력받기

v , e = map ( int , input (). split ())

parent =[ 0 ]*( v + 1 ) # 부모 테이블 초기화

# 부모 테이블을 자기 자신으로 초기화

for i in range ( 1 , v + 1 ):

parent [ i ]= i

cycle = False # 사이클 발생 여부

for i in range ( e ):

a , b = map ( int , input (). split ())

# 사이클이 발생한 경우 종료

if find_parent ( parent , a )== find_parent ( parent , b ):

cycle = True

break

# 사이클이 발생하지 않았다면 합집합(union)수행

else :

union_parent ( parent , a , b )

if cycle :

print ( '사이클이 발생했습니다.' )

else :

print ( '사이클이 발생하지 않았습니다.' )

신장트리

신장트리는 그래프 알고리즘 문제로 자주 출제되는 문제 유형이다.

기본적으로 신장트리란, 하나의 그래프가 있을 때 모든 노드를 포함하면서 사이클이 존재하지 않는 부분 그래프를

의미한다. (이때 모든 노드가 포함되어 서로 연결되면서 사이클이 존재하지 않는다는 조건이 트리의 성립조건이다.)

크루스칼 알고리즘

다양한 문제 상황에서 최소한의 비용으로 신장 트리를 찾아야 할 때가 있다. 예를들어 N개의 도시가 존재하는 상황에서 두 도시 사이에 도로를 놓아 전체 도시가 서로 연결될 수 있게 도로를 설치하는 경우이다. 2개의 도시 A B를 선택했을 시 도시 A에서 B로 이동하는 경로가 반드시 존재하도록 도로를 설치하고자 한다. 모든 도시를 '연결'할 때 최소한의 배용으로 연결하려면 어떻게 해야 할까.

이러한 그래프가 있다고 하자, 각 도시간 도로건설비용은 23, 13, 25 이다. 여기서 노드 1, 2, 3을 모드 연결하기 위한 최소 비용을 가지는 신장트리리는 36이다.

1. 23 + 13 = 36

2. 23 + 25 = 48

3. 25 + 13 = 38

이렇게 신장 트리중에서 최소 비용으로 만들 수 있는 신장 트리를 찾는 알고리즘을 '최소 신장 트리 알고리즘' 이라하며,

대표적인 최소 신장 트리 알고리즘으로는 크루스칼 알고리즘이 있다.(가장 적은 비용으로 모든 노드 연결)

크루스칼 알고리즘은 그리디 알고리즘으로 분류가 된다. 먼저 모든 간선에 대하여 정렬을 수행 한뒤 가장 거리가 짧은 간선부터 집합에 포함시킨다. 이 때 사이클을 발생 시킬 수 있는 간선은 집합에 포함 시키지 않는다. 구체적인 과정은 다음과 같다.

이러한 그래프가 있다고하자

step0. 초기 단계에서는 그래프의 모든 간선 정보만 따로 빼내어 정렬을 수행한다.

간선 (1,2) (1, 5) (2, 3) (2, 6) (3, 4) (4, 6) (4, 7) (5, 6) (6, 7) 비용 29 75 35 34 7 23 13 53 25 순서

step1. 첫 번째 단계에서는 가장 짧은 간선을 선택한다. 따라서 (3, 4)가 선택되고 이것을 집합에 포함한다.

(다시말해 union 3 4 수행) 그럼 노드 3과 노드4는 동일한집합에 속한다.

간선 (1,2) (1, 5) (2, 3) (2, 6) (3, 4) (4, 6) (4, 7) (5, 6) (6, 7) 비용 29 75 35 34 7 23 13 53 25 순서 step1

step2. 그다음으로 비용이 가장 작은 간선 (4, 7) 을 선택하고 union을 수행한다.

step3. 그다음으로 비용이 가장 작은 간선 (4, 6) 을 선택하고 union을 수행한다.

step4. 그다음으로 비용이 가장 작은 간선 (6, 7) 을 선택한다, 노드 6 7의 루트노드는 이미 동일한 집합에 포함되어 있으므로 신장트리에 포함하지 않는다, 즉 union함수를 호출하지 않는다.

간선 (1,2) (1, 5) (2, 3) (2, 6) (3, 4) (4, 6) (4, 7) (5, 6) (6, 7) 비용 29 75 35 34 7 23 13 53 25 순서 step1 step3 step2 step4

step5. 그다음으로 비용이 가장 작은 간선 (1, 2) 을 선택하고 union을 수행한다.

step6. 그다음으로 비용이 가장 작은 간선 (2, 6) 을 선택하고 union을 수행한다.

step7. 그다음으로 비용이 가장 작은 간선 (2, 3) 을 선택한다, 노드 2 3의 루트노드는 이미 동일한 집합에 포함되어 있으므로 신장트리에 포함하지 않는다, 즉 union함수를 호출하지 않는다.

간선 (1,2) (1, 5) (2, 3) (2, 6) (3, 4) (4, 6) (4, 7) (5, 6) (6, 7) 비용 29 75 35 34 7 23 13 53 25 순서 step5 step7 step6 step1 step3 step2 step4

step8. 그다음으로 비용이 가장 작은 간선 (5, 6) 을 선택하고 union을 수행한다.

step9. 그다음으로 비용이 가장 작은 간선 (1, 5) 을 선택한다, 노드 2 3의 루트노드는 이미 동일한 집합에 포함되어 있으므로 신장트리에 포함하지 않는다, 즉 union함수를 호출하지 않는다.

간선 (1,2) (1, 5) (2, 3) (2, 6) (3, 4) (4, 6) (4, 7) (5, 6) (6, 7) 비용 29 75 35 34 7 23 13 53 25 순서 step5 step9 step7 step6 step1 step3 step2 step8 step4

결과는 아래의 이미지이다.

최소 신장 트리

최종비용은 최소신증 트리에 포함된 간선의 비용을 모두 합한 159이다.

크루스칼 알고리즘의 소스코드 구현은 아래와 같다.

# 특정 원소가 속한 집합을 찾기

def find_parent ( parent , x ):

if parent [ x ]!= x :

parent [ x ]= find_parent ( parent , parent [ x ])

return parent [ x ]

# 두 원소가 속한 집합을 합치기

def union_parent ( parent , a , b ):

a = find_parent ( parent , a )

b = find_parent ( parent , b )

if a < b :

parent [ b ]= a

else :

parent [ a ]= b

# 노드의 개수와 간선(union연산)의 개수 입력받기

v , e = map ( int , input (). split ())

parent =[ 0 ]*( v + 1 ) # 부모 테이블 초기화

# 모든 간선을 담을 리스트와 최종 비용을 담을 변수

edges =[]

result = 0

# 부모 테이블을 자기 자신으로 초기화

for i in range ( 1 , v + 1 ):

parent [ i ]= i

# 모든 간선에 대한 정보 입력받기.

for _ in range ( e ):

a , b , cost = map ( int , input (). split ())

# 비용순으로 정렬하기 위해 튜블의 젤 첫번째 값을 비용으로 설정

edges . append (( cost , a , b ))

# 간선을 비용 순으로 정렬

edges . sort ()

# 간선을 하나씩 확인하며

for edge in edges :

cost , a , b = edge

# 사이클이 발생하지 않는 경우에만 집합에 포함

if find_parent ( parent , a )!= find_parent ( parent , b ):

union_parent ( parent , a , b )

result += cost

print ( result )

크루스칼 알고리즘의 시간복잡도

크루스칼 알고리즘은 간선의 개수가 E개일때, O(ElogE) 의 시간복잡도를 가진다. 왜냐하면 크루스칼 알고리즘은 간선을 정렬하는데 가잔 긴 시간이 걸리며, E개의 데이터를 정렬할때의 시간복잡도가 O(ElogE) 이기 때문이다. 서로소 집합의 알고리즘의 복잡도는 정렬보다 작으므로 무시한다.

위상 정렬

위상정렬은 정렬 알고리즘의 일종이다. 위상정렬은 순서가 정해진 일련의 작업을 차례대로 수행해야할 때 사용할 수 있는 알고리즘이다. 이론적으론 방향 그래프의 모든 노드를 '방향성에 거스르지 않도록 순서대로 나열하는 것' 이다.

전형적인 예시로 '선수과목을 고려한 학습 순서 설정'의 예시가 있다. 예를들어 한 과목의 커리큘럼이 '자료구조'를 수강 후' 알고리즘'을 수강하는것이라면 각각을 노드로 표현하고 '자료구조' -> '알고리즘'으로의 방향성을 갖는 간선을 그릴 수 있다. 또한 '고급 알고리즘' 과목이 있어 자료구조 -> 알고리즘 -> 고급알고리즘의 순서로 수강해야 한다고 하자,

여기서 잠시 위상정렬을 자세히 알려면 진입 차수를 알야아한다.

진입차수란(Indegree) : 특정 노드로 들어오는 간선의 개 수.

여기서 '고급 알고리즘' 노드는 2개의 선수과목을 가지고있다, 즉 진입차수가 2이다. 구체적인 알고리즘은 다음과 같다.

1. 진입차수가 0인 노드를 큐에 넣는다.

2. 큐가 빌때까지 다음의 과정을 반복한다.

1) 큐에서 원소를 꺼내 해당 노드에서 출발하는 간선을 그래프에서 제거한다.

2) 새롭게 진입차수가 0이된 노드를 큐에 넣는다.

이 순서로 알고리즘을 이용하면 간단하게 위상정렬을 수행할 수 있다. 알고리즘에서도 확인할 수 있듯이 큐가 빌 때 까지 큐에서 원소를 계속 꺼내서 처리하는 과정을 반복한다. 이 때 모든 원소를 방문하기 전에 큐가 빈다면 사이클이 존재하는 것이다. ( 다만, 기본적으로 위상정렬 문제는 사이클이 발생하지 않는다고 명시하는게 대부분이다.)

구체적인 과정은 다음과 같다.

위 와같은 그래프가 있을시 위상정렬을 수행본다.

step0. 초기단계에서 진입차수가 0인 노드를 큐에 넣는다. 현재 노드 1의 진입차수가 0이므로 큐에 노드1을삽입한다.

노드 1 2 3 4 5 6 7 진입차수 0 1 1 2 1 2 1 큐 노드1

step1. 먼저 큐에 있는 노드1을 꺼낸후 노드1 과 연결된 간선들을 제거한다, 그러면 노드 2,5의 진입차수는 0이된다, 이제 노드 2, 5를 큐에 삽입한다.

노드 1 2 3 4 5 6 7 진입차수 0 0 1 2 0 2 1 큐 노드2, 노드5

step2. 그 다음 노드 2를 꺼낸후 2와 연결된 간선을 제거한다. 그러면 노드 3의 진입차수는 0이되고 3을 큐에 삽입한다.

그 다음 노드 6를 꺼낸후 마찬가지로 간선을 제거하고 6의 진입차수를 0으로 만들어준다음 큐에 6을 삽입한다.

그 다음 노드 3을 꺼낸후 간선들을 제거한다. 진입차수가 0이 되는 노드는 없다.

그 다음 큐의 노드 6을 꺼낸후 간선을 제거, 노드4의 진입차수는 0이되고 큐에 4를 삽입한다.

그 다음 4를 꺼낸후 간선을 제거, 진입차수가 0이된 7을 큐에삽입한다.

노드 1 2 3 4 5 6 7 진입차수 0 0 0 0 0 0 0 큐 노드7

step3. 마지막으로 노드7을 꺼낸다. 이제 노드 7과 연결되는 간선을 제거한다. 진입차수가 0이 되는 노드는 없다.

이제 큐가 비었다.

노드 1 2 3 4 5 6 7 진입차수 0 0 0 0 0 0 0 큐

위 과정을 수행하는 동안 빠져나간 노드를 순서대로 출력해보자

1 - 2 - 5 - 3 - 6 - 4 - 7 이고 이것이 위그래프를 위상 정렬의 한 것이다.

( 1, 5, 2, 3, 6, 4, 7 역시 정답이지만 일반적으로 작은 수를 먼저 큐에서꺼낸다.)

소스코드로 구현하면 다음과 같다.

from collections import deque

# 노드의 개수와 간선의 개수 입력 받기

v , e = map ( int , input (). split ())

# 모든 노드에 대한 진입차수는 0으로 초기화

indegree =[ 0 ]*( v + 1 )

# 각 노드에 연결된 간선 정보를 담기 위한 연결 리스트(그래프) 초기화

graph =[[] for _ in range ( v + 1 )]

# 방향 그래프의 모든 간선 정보를 입력받기

for _ in range ( e ):

a , b = map ( int , input (). split ())

graph [ a ]. append ( b ) # 정점 A에서 B로 이동이 가능하다.

# 진입차수를 1 증가

indegree [ b ]+= 1

# 위상정렬 함수 만들기

def topology_sort ():

result =[] # 위상정렬 수행 결과를 담을 리스트

q = deque () # deque라이브러리

# 처음 시작시 진입차수가 0인 노드를 큐에삽입

for i in range ( v + 1 ):

if indegree [ i ]== 0 :

q . append ( i )

# 큐가 빌때까지 반복

while q :

# 큐에서 원소 꺼내기

now = q . popleft

result . append ( now )

# 해당원소와 연결된 노드에서 진입차수 빼기

for i in graph [ now ]:

indegree [ i ]-= 1

# 새롭게 진입차수가 0이되는 노드를 큐에 삽입

if indegree [ i ]== 0 :

q . append ( i )

# 위상정렬 결과 출력

print (* result )

topology_sort ()

위상정렬의 시간 복잡도

위상정렬의 시간 복잡도는 O(V+E) 이다. 위상정렬 수행시 차례대로 모든 노드를 확인하면서 해당 노드에서 출발하는 간선을 제거하기 때문이다. 결과적으로 모든 노드와 간선을 탐색해야한다.

from http://20210916start.tistory.com/83 by ccl(A) rewrite - 2021-09-28 04:27:00

Top