on
텐서플로 2와 머신러닝으로 시작하는 자연어 처리 - 02 _ 자연어 처리...
텐서플로 2와 머신러닝으로 시작하는 자연어 처리 - 02 _ 자연어 처리...
신경망 모델을 만들 때 생기는 여러 문제점은 과적합이다. 정규화 방법을 사용해서 해결, 그중 대표적인 방법이 드롭아웃(dropout)이다.
dropout : 학습 데이터에 과적합되는 상황을 방지하기 위해 학습 시 특정 확률로 노드들의 값을 0으로 만든다.
지도 학습 모듈 : 나이브 베이즈, 의사결정 트리, 서포트 벡터 머신
비지도 학습 모듈 : 군집화, 가우시안 혼합 모델
지도 학습 모델 : k 최근접 이웃 분류기
비지도 학습 모델 : k 평균 군집화
지도 학습 : 간단히 말해서 각 데이터에 대해 정답이 있는 경우 각 데이터의 정답을 예측할 수 있게 학습시키는 과정
k-최근접 이웃 분류기 사용
k-최급접 이웃 분류기란 ? : 예측하고자 하는 데이터에 대해 가장 가까운 거리에 있는 데이터의 라벨과 같다고 예측하는 방법, 데이터에 대한 사전 지식이 없는 경우의 분류에 많이 사용된다.
비지도 학습 : 지도 학습과는 달리 데이터에 대한 정답, 즉 라벨을 사용하지 않고 만들 수 있는 모델이다. 모델을 통해 문제를 해결하고 싶은데 데이터에 대한 정답이 없는 경우에 적용하기에 적합한 모델이다.
k-평균 군집화 모델을 사용
군집화란 데이터를 특성에 따라 여러 집단으로 나누는 방법
CountVectorizer
텍스트 데이터에서 횟수를 기준으로 특징을 추출하는 방법, 문장을 입력으로 받아 단어의 횟수를 측정한 뒤 벡터로 만든다.
횟수를 사용해서 벡터를 만들기 때문에 직관적이고 간단해서 여러 상황에서 사용할 수 있다는 장점이 있다. 하지만 단순히 횟수만을 특징으로 잡기 때문에 큰 의미가 없지만 자주 사용되는 단어들, 예를 들면 조사 혹은 지시대명사가 높은 특징 값을 가지기 때문에 유의미하게 사용하기 어려울 수 있다.
TfidVectorizer
TF-IDF라는 특정한 값을 사용해서 텍스트 데이터의 특징을 추출하는 방법이다. CountVectorizer가 가진 문제점을 해결할 수 있다.
NLTK : 영어의 경우
KoNLPy는 형태소 분석으로 형태소 단위의 토크나이징을 가능하게 할뿐만 아니라 구문 분석을 가능하게 할뿐만 아니라 구문 분석을 가능하게 해서 언어 분석을 하는 데 유용한 도구다
from http://kimsoosoo0928.tistory.com/49 by ccl(A) rewrite - 2021-10-22 21:26:48