Lv1 | 모델링 | 모델개념 (의사결정나무)

Lv1 | 모델링 | 모델개념 (의사결정나무)

# 의사결정나무란?

결정 트리는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다.

A 를 만족하는가?

True False

B를 만족하는가? C를 만족하는가?

True False True False

D 이다 F이다 G이다 H이다

EDA를 통해 data를 살펴보면 각 행들은 피쳐들을 갖고 있다. 이 중 하나의 피쳐를 정해서 해당 피쳐의 값에 대해 특정한 하나의 값을 정한다면, 이를 기준으로 모든 행들을 두개의 노드로 분류할 수 있다.

대표적인 의사결정나무인 CART 의사결정 나무는 이진분할을 사용한다.

파생된 두 개의 노드에 대해서 또 다시 새로운 피쳐의 특정한 값을 정하고 분류를 정한다.

이 과정을 반복하게 되면 점점 피쳐의 값에 따라 data들이 분류가 되는데 이를 의사결정 나무의 원리하고 한다.

특정인자

값을 정하는 의사결정 나무의 원칙은 '한쪽 방향으로 쏠리도록' 하는 것이다.

분류가 될 떄는 공평하게 비슷한 양으로 나뉘도록 값을 정하는게 아니며, 한쪽 방향으로 쏠리도록 해주는 특정한 값을 찾는 것으로, 이를 불순도를 계산해서 찾아낸다.

의사결정나무 모델은 scikit-learn 모듈을 불러올 수 있다.

from sklearn.tree import DecisionTreeClassifier

from http://carpe08.tistory.com/13 by ccl(A) rewrite - 2021-07-29 20:00:23