목록데이터 (3)
운동하는 공대생
1. Data https://www.kaggle.com/competitions/titanic/data Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 2. 수업 내용 머신러닝의 실습 과정에서 필요한 과정을 설명을 하겠습니다. 먼저 실습하는 과정에서는 제가 자주 사용하는 방식을 순서대로 설명을 하겠습니다. Data Preprocessing - 데이터 분석 import pandas as pd df=pd.read_csv('train.csv') df['Survived'].value_counts() df 데이터 전처리 과정에서는 먼저 데이터에 대한 분석을 진행을 해야 한다. 훈련을 위한 데이터와 예측을 하려는 데이터에 대하여 데이터의 분포(tar..

Structure of the GAN 위의 사진처럼 2가지의 주요 한 구성 요소로 이루어져 있다. 생성자, 판별자 두 가지 구조를 가지고 있으며 2가지의 네트워크를 활용하여 이미지를 생성하는 이론이다. -Generator(생성자) 생성자는 노이즈 값을 받아서 새로운 인스턴스를 생성하는 역할을 한다. -Discriminator(판별자) 판별자는 실제 이미지를 가지고 얼마나 생성자의 이미지와 일치하는지를 확률값으로 반환을 해준다.(Real:1 ~ Fake:0) Formula of GAN 대략적인 식은 이렇게 표시가 된다. 이제 식 하나하나 어떤 의미를 가지고 있는지를 이야기를 해보겠다. 먼저 공식의 전체적인 의미를 가지고있는 부분이 이 부분이다. 천천히 해석을 해보자면 G(생성자)의 값은 최소가 돼야 하고 ..

What is Synthetic Data 머신러닝 모델을 만들고 적용을 시켜 예측을 하다 보니 데이터의 양이 너무 적어서 예측의 정확도가 좋지 않은 경우가 생각보다 많이 있었다. 이런 상황에서 예측의 정확도를 높이기 위해서 모델의 최적의 파라미터를 찾거나 전처리를 잘하여 정확도를 높이는 방법이 있지만 절대적인 데이터의 양이 부족하다면 정확도를 높이는 게 한계가 있다. 그래서 정확도를 높이기 위한 방식을 찾아보다가 Synthetic Data(합성 데이터)라는 이론에 대하여 알게 되었다. Synthetic Data(합성 데이터)가 등장하게된 배경으로는 양질의 데이터를 대량으로 얻기 어려운 상황과 그리고 요즘 딥러닝에서 이슈가 되고 있는 데이터에 대한 개인정보보호 때문에 데이터를 얻는데 시간과 제한들 때문에 ..