RF(랜덤포레스트)

RF(랜덤포레스트)

RF란? 오버피팅을 방지하기 위해, 최적의 기준 변수를 랜덤 선택하는 기법

- 분류/회귀 문제에 모두 사용가능

- 대용량 데이터 처리에 효과적

- 오버피팅 문제를 회피하여 모델정확도를 향상 시킴

파라미터

- n_estimators : 모델에서 사용할 트리 갯수(학습시 생성할 트리 갯수)

- criterion : 분할 품질을 측정하는 기능 (default : gini)

- max_depth : 트리의 최대 깊이

- min_samples_split : 내부 노드를 분할하는데 필요한 최소 샘플 수 (default : 2)

- min_samples_leaf : 리프 노드에 있어야 할 최소 샘플 수 (default : 1)

- min_weight_fraction_leaf : min_sample_leaf와 같지만 가중치가 부여된 샘플 수에서의 비율

- max_features : 각 노드에서 분할에 사용할 특징의 최대 수

- max_leaf_nodes : 리프 노드의 최대수

- min_impurity_decrease : 최소 불순도

- min_impurity_split : 나무 성장을 멈추기 위한 임계치

- bootstrap : 부트스트랩(중복허용 샘플링) 사용 여부

- oob_score : 일반화 정확도를 줄이기 위해 밖의 샘플 사용 여부

- n_jobs :적합성과 예측성을 위해 병렬로 실행할 작업 수

- random_state : 난수 seed 설정

- verbose : 실행 과정 출력 여부

- warm_start : 이전 호출의 솔루션을 재사용하여 합계에 더 많은 견적가를 추가

- class_weight : 클래스 가중치

참조 : https://injo.tistory.com/30

공유하기 글 요소 저작자표시

from http://lns960712.tistory.com/4 by ccl(A) rewrite - 2021-08-05 22:26:08