on
개인정리 : 딥러닝 기반 이상치 탐지 알고리즘 정리 예고
개인정리 : 딥러닝 기반 이상치 탐지 알고리즘 정리 예고
- 최근 만들어야 하는 것이 많아서 블로그 글에 신경을 전혀 못 씁니다.
우선순위로는
1. 우선 지금 작성 중인 데이터 분석 과정에서 공부했던 내용들 정리
2. 파이토치 정리
3. 안드로이드 실개발 탬플릿 정리
4. 안드로이드 개인 정리한 카메라 라이브러리 정리
5. 그래픽 프로그래밍 정리
6. 도커/쿠버네티스 정리
7. AWS 실개발 정리
8. 딥러닝 적용 기업 + 주가 분석 및 주식 자동 트래이딩 봇 개발 정리
이렇게 존재하는데,
우선순위 3번으로 새롭게 들어갈 내용으로,
'딥러닝 기반 이상치 탐지'(이론)
를 넣을 생각입니다.
이전에 만들어둔 머신러닝 이상치 탐지 전 프로세스 코드와 이번에 새롭게 만들 딥러닝 이상치 탐지 모델은 현재 하는 일과도 연관되어 있기에,
둘 모두 일단 이론으로만 다룹니다.
- 딥러닝 이상치 탐지 주요 내용
지도 학습 방식은 이미 구축해본 결과 효과가 없었습니다.
1. 하이퍼 파라미터를 잡기 어려웠습니다.
다른 머신러닝 알고리즘은 그리드 서치를 통해 한정된 파라미터를 변경해가며 최적 파라미터를 찾는게 용이했는데,
딥러닝 알고리즘의 경우는 노드 개수 계층 개수, 옵티마이저 종류, 에포크, lr 계산, drop out 설정 등등 변경할 것도 많고, 무엇보다 조금만 모델이 커져도 학습 시간이 오래걸립니다.
2. 데이터 부족
이상치 데이터는 데이터 불균형 현상이 잘 일어납니다.
가장 이상적으로는 출력하려는 모든 클래스가 1 대 1 비율을 가지는 것인데, 불량율 0.1% 이하의 프로세스상 얻을수 있는 실제 이상치 데이터는 적을수밖에 없습니다.
이에 오버샘플링 등의 방법을 사용했는데, 결과는 조금 나아졌을 뿐....
3. 성능 자체가 별로입니다.
애초에 수학적으로 계산이 가능한 종류의 문제는 딥러닝의 유연함이 오히려 방해입니다.
뚜렷한 수치들의 조합이 존재하고 그것이 이상치다 아니다라는 것을 확률적으로 계산하는 문제는 딥러닝 알고리즘보다 오히려 단순 로지스틱 회귀 모델이 더 성능이 좋았습니다.
앙상블 등, 여러 사용 가능한 모델을 동시에 학습시켰을 때 딥러닝 알고리즘 성적은 중위권이었습니다...
위와 같은 문제가 존재했습니다.
특히나 데이터 불균형 문제가 큰데, 이는 딥러닝뿐 아니라 다른 알고리즘에서도 고질적인 문제입니다.
이에 딥러닝 비지도 학습으로 이상치를 검출해내는 방식이 있습니다.
from http://wiserloner.tistory.com/1479 by ccl(A) rewrite - 2021-10-17 09:26:37