목록전체 글 (116)
운동하는 공대생

1.Intro PWC 컨설팅 ML 프로젝트를 진행하면서 혼자 공부하고 고민한 부분을 내용 정리하는 페이지로 정리를 하려고 한다. AWS 서비스는 나한테는 조금 생소한 서비스이다 이전에는 사용하지 않았던 서버에 관련된 서비스로 서버구축을 따로 하지 않고도 아마존에서 제공하는 컴퓨터와 클라우드 서버를 이용하여 서버리스 컴퓨팅(serverless computing) 기법을 사용하여 서버를 제공한다. 2.서버리스란? 클라우드 제공자는 동적으로 머신 자원의 할당을 관리한다. 가격은 미리 구매한 용적 단위가 아닌 애플리케이션이 소비한 자원의 실제 양에 기반을 둔다. 유틸리티 컴퓨팅의 일종이다. (출처) 3.AWS API GateWay AWS API 서비스는 서버리스 애플리케이션 필드를 위한 통합적인 개발 환경으로 ..

XGBoost 기법은 Decision Tree (결정트리)방식을 기반으로 한 알고리즘 방식이다. 현존하는 모델중에서 현업니다 대회에서 가장 많이 사용되어지고 있는 모델이다. XGBoost 기법을 설명하기 이전에 먼저 Boosting 이라는 앙상블 기법에 대하여 설명을 먼저 하도록 하겠다. 앙상블 기법이란 여러가지 예측 모델을 설정하고 결합하여 예측값의 정확도를 높이는 방식이다. 앙상블 기법에는 크게 Voting, Bagging, Boosting 이렇게 3가지로 나뉜다. Voting과 Bagging 은 이후 앙상블 이론을 다룰때 설명을 다시 하도록 하겠다. -Boosting Boosting 기법이란 여러가지 분류 모델들을 순차적으로 실행하고 결과값에서 Error(예측이 틀린값)에 가중치를 두어서 다음 예측..

1. 정의 시계열이란 이름 그대로 시간의 흐름에 따라 기록 또는 저장되어있는 데이터를 분석하는 것이다. 예로 들자면 보통 기상분석 데이터, 주식, 금융 등 다양하게 활용되고 있다. 예측 모델에서는 시간을 독립변수로 생각하고 종속변수인 데이터를 예측하는 방식으로 데이터를 예측한다. 2. 시계열 데이터 정상성(Stationary) -정상 시계열 정상 시계열이란 위 그림처럼 시간에 따른 시계열의 평균과 그리고 데이터의 분산들이 일정하고 변화되는 추세가 없어야한다. 한마디로 정의하자면 시간에 종속되지 않고 추세가 없는 데이터형이다. 3. ARIMA ARIMA모델은 정상 시계열 데이터가 아닌 비정상 시계열( 변화의 추세를 보이는 데이터를 말한다. )를 예측하는 방식이다. 그러나 이 “자동”이라는 단어 때문에 단순..

정의 k-평균 알고리즘(K-means clustering algorithm)은 먼저 데이터를 분류하는 군집화 방식중 하나로 간단하게 군집화가 가능한 방식이다. Clustring 하고 싶은 군집화의 수에 따라 중심점을 지정하고 그 중심점들(Centroids)에서 데이터들 사이의 평균 거리를 이용하는 방식이다. 이후 군집화 수에 따라 데이터를 분류하고 분류된 군집에서 다시 중심점을 정하는 방식으로 알고리즘을 수행한다. 위의 알고리즘 공식처럼 데이터(x) 와 중심점(u) 의 분산(v) 를 최소화 시키는 것이 이 알고리즘의 방식이다. 구현 순서 군집화 수 정하기 K-Mean 군집화 방식을 사용하려면 자신이 분류하고자 하는 군집의 수를 지정을 해주어야한다. -Elbow method 이전에 설명했던 분산과 군집의 ..