목록인코딩 (1)
운동하는 공대생

Label encoding(레이블 인코딩) 데이터 예측 모델을 훈련 하가 위해서 많은 머신러닝 알고리즘은 문자열 데이터 형식을 지원하지 않는다. 그래서 모든 문자열 값은 인코딩 돼서 숫자 형으로 변황이 되어야 한다. 문자의 종류는 연속적인 값인 수치형 데이터와 범주형 데이터가 있다. 범주형 데이터들은 예측값과 연관성을 분석해보면 예측하려 하는 컬럼과 연관성이 있다면 수치형으로 바꾸는 레이블 인코딩 방식을 사용하여 데이터를 바꿔 주어야 하지만 범주형 데이터에서도 식별자의 특징을 띄는 범주형 데이터는 오히려 예측 성능을 덜어 뜨리기도 한다. 식별자의 특징을 가지는 범주형 데이터는 예를 들어 주민번호, 아이디 같은 한 행이 다른 행과 다른 것을 식별이 가능한 테이터를 말한다. from sklearn.prepr..
Machine Learning
2022. 11. 22. 16:01