목록머신러닝 (65)
운동하는 공대생

https://seungwoni.tistory.com/30 Deep Learning(딥러닝) Intro 머신러닝 분야를 공부를 시작하면서 자연스럽게 접하게 되었던 딥러닝 분야 공부를 항상 미뤄왔다가 이번 여러 대회를 참가하면서 비정형 데이터들의 분류와 예측하는 대회들이 유행하고 seungwoni.tistory.com 단층 퍼셉트론 그림 1. 에서 퍼셉트론의 구조를 간단하게 표현을 해놨다. 그림 1을보면 , x1에 w1부터 xn에 wn까지의 값이 있는데 w(Weight)는 가중치라고 보면 됩니다. 컴퓨터의 판단 없이 실제 있는그대로의 Data 가 X값이며, W값은 가중치 혹은 보정치가 되는 값이라고 보면 됩니다. w값도 4개이고, x의 값도 네개이니, 위 개념도는 즉 x1w1, x2w2, x3w3, x4w..
What is TF-IDF TF-IDF는 NLP 분야에 거 가장 흔하게 사용하는 방식으로 텍스트들이 나열되어있는 데이터에서 단어의 빈도수를 기준으로 하여서 한 단어가 그 문장에서 얼마나 수학적으로 중요한지 가중치를 나타내는 방식이다. 한 문장에서 한 단어의 빈도가 높으면 높을수록 이 TF 값은 커지고 여러 문장에서 한 단어의 빈도수가 높아면 IDF 값이 줄어드는 형식으로 이 두 값 TF, IDF를 곱한 것을 결과로 도출한다. 즉 한 문장에서 자주 사용되는 단어는 중요하다 판단하지만 다른 문장에서도 흔하게 사용하면 중요하지 않다고 단어를 판단하는 알고리즘이다. Mathematical Formula of TF-IDF 단어의 빈도를 나타내는 이 알고리즘은 결과값을 여러 가지 방식으로 산출한다. 먼저 총빈도수를..

Label encoding(레이블 인코딩) 데이터 예측 모델을 훈련 하가 위해서 많은 머신러닝 알고리즘은 문자열 데이터 형식을 지원하지 않는다. 그래서 모든 문자열 값은 인코딩 돼서 숫자 형으로 변황이 되어야 한다. 문자의 종류는 연속적인 값인 수치형 데이터와 범주형 데이터가 있다. 범주형 데이터들은 예측값과 연관성을 분석해보면 예측하려 하는 컬럼과 연관성이 있다면 수치형으로 바꾸는 레이블 인코딩 방식을 사용하여 데이터를 바꿔 주어야 하지만 범주형 데이터에서도 식별자의 특징을 띄는 범주형 데이터는 오히려 예측 성능을 덜어 뜨리기도 한다. 식별자의 특징을 가지는 범주형 데이터는 예를 들어 주민번호, 아이디 같은 한 행이 다른 행과 다른 것을 식별이 가능한 테이터를 말한다. from sklearn.prepr..

Intro 머신러닝 분야를 공부를 시작하면서 자연스럽게 접하게 되었던 딥러닝 분야 공부를 항상 미뤄왔다가 이번 여러 대회를 참가하면서 비정형 데이터들의 분류와 예측하는 대회들이 유행하고 있어서 딥러닝 분야를 공부를 시작을 해보았다. What is Deep Learning 딥러닝 분야는 항상 최신 트렌드 산업과 기술에서 꾸준히 등장하고 있는 분야이다. 이런 딥러닝 분야는 이제까지 공부한 머신러닝 알고리즘 중 하나인 인공신경망(Artificial Neural Network)으로 만들어진 알고리즘을 말하며 큰 틀에서 본다면 머신러닝 분야라고 할 수 있다. 퍼셉트론(Perceptron) 인공 신경망 알고리즘을 사용하는 머신러닝 분야중 한가지인 딥러닝의 초기 모델이 퍼셉트론이다. 퍼셉트론에 대하여 이야기하기전에 ..

What is Levenshtein Distance 레벤슈타인 거리는 문자열의 유사도를 판별하는 알고리즘의 한 방식으로 두 문자열 사이에 같아지기 위한 연산을 최소화하는 값을 찾는 알고리즘이다. 여기서 연산이랑 수정, 삭제, 삽입 이렇게 3가지 연산을 칭한다. 위의 사진처럼 1차 수정에서 4번 삭제에서 1번 삽입에서 1번 총 6번의 비용이 필요한 문자열이다. Levenshtein Distance Process 레벤 슈타인은 그렇다면 어떤 방식으로 작동하는지 알아보겠다. 기본적으로 LCS 알고리즘과 유사하게 알고리즘이 작동한다. LCS LCS: 최장 공통 부분수열 문제는 LCS라고도 불린다. 이는 주어진 여러 개의 수열 모두의 부분수열이 되는 수열들 중에 가장 긴 것을 찾는 문제다 사전적인 의미는 이렇지만..

NLP vs 텍스트 분석 텍스트 분석 분야를 크게 나누자면 NLP와 텍스트 분석으로 나눌 수 있다. NLP: National Language Processing의 약자로 보통 인간의 언어를 이해하는 쪽으로 발전하였으며 텍스트 마이닝(Text Minning)이라고도 한다. 텍스트 분석: 텍스트 분석은 데이터를 기반으로 모델을 수립하고 정보를 추출하여 예측 분석 등의 분석 작업을 하는 것이다. 보통 텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정에 주로 쓰인다. Text Analysis Process 텍스트 전처리: 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어 등의 토큰화 작업, 의미 없는 단어 제거 작업, 어근 추출 등의 텍스트 정규화 작업 피처 벡터화/추출: 사..

파이썬 머신러닝 완벽 가이드(개정 2판) 책 내용을 정리한 내용입니다. 다항 회귀 이해 이전 공부한 내용까지는 단순 회귀에 관하여 설명했지만 이번에는 현실 상황에서 더 자주 있는 독립변수의 단항식이 아닌 2차, 3차 이상의 다항식일 경우에 해당하는 다항 회귀에 대햐여 이야기를 해보겠다. 다항 회귀는 단순회귀의 일차원 직선과 다르게 곡선형의 모양을 띄고 있다. 그래서 어떤 데이터에서는 선형 모델이 더 좋은 정확도를 보일 수도 있지만 일반적인 경우에는 다항 회귀 모델이 더 높은 정확도를 나타낸다. 다항 회귀를 이용한 과소적합 및 과적합 이해 과적합 다항 회귀 모델을 사용하는것이 항상 좋은 경우만 있는 것은 아니다. 이유는 항상 과소 적합과 과적 합의 오류를 신경을 써야 한다. 일단 과적합(overfittin..

What is Gradient Descent 이전 글에서 이야기했지만 회귀 분야에서 예측값과 실제값의 차이, 즉 비용을 최소화해주는 게 가장 중요하다. 이때 이 비용 값을 최소화해주는 방식이 Gradient Descent(경사 하강법)이다. 이 이론이 등장한 배경은 직관적인 단순 선형 회귀가 아닌 함수상으로 생각하기 어려운 다중으로 종속변수가 존재하는 상황에서는 RSS 비용 값을 최소화하기 위해서 데이터를 기반으로 알고리즘을 학습하는 이 방식이 등장하게 되었다. 수학 공식은..... 생략..ㅎㅎ 출처: https://angeloyeo.github.io/2020/08/16/gradient_descent.html 위의 동영상을 참조하면 처음 초기 값에서 RSS 비용 함수의 비용 값이 큰 상황의 함수가 있다...