목록Bow (2)
운동하는 공대생
NLP 방식에서 횟수 기반 임베딩(Frequency - based Embedding)은 단어의 빈도수를 바탕으로 하는 NLP 방법이다. 여기서 가장 자주 사용하고 있는 방식은 BOW, Count Vector, TF-IDF Vector 기법이 있다. BOW BOW 방식은 주어진 문장을 형태소 분석을 통해 문자나 단어를 분리하고, 분리된 문자를 인덱스 번호를 부여하여 빈도수로 벡터화를 시키는 방식을 BOW 방식이라고 말한다. 예를 들어, 다음과 같은 단어별로 인덱스를 부여했다고 가정해 보자. 이를 'BOW를 정의했다'라고 한다. "I" -------------- 0 "teacher" ------- 1 "am"------------ 2 "top" ----------- 3 "a" ------------- 4 "..

NLP vs 텍스트 분석 텍스트 분석 분야를 크게 나누자면 NLP와 텍스트 분석으로 나눌 수 있다. NLP: National Language Processing의 약자로 보통 인간의 언어를 이해하는 쪽으로 발전하였으며 텍스트 마이닝(Text Minning)이라고도 한다. 텍스트 분석: 텍스트 분석은 데이터를 기반으로 모델을 수립하고 정보를 추출하여 예측 분석 등의 분석 작업을 하는 것이다. 보통 텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정에 주로 쓰인다. Text Analysis Process 텍스트 전처리: 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어 등의 토큰화 작업, 의미 없는 단어 제거 작업, 어근 추출 등의 텍스트 정규화 작업 피처 벡터화/추출: 사..