운동하는 공대생

Synthetic Data(합성 데이터) 본문

Machine Learning

Synthetic Data(합성 데이터)

운동하는 공대생 2022. 10. 14. 11:17
728x90
반응형

What is Synthetic Data

 머신러닝 모델을 만들고 적용을 시켜 예측을 하다 보니 데이터의 양이 너무 적어서 예측의 정확도가 좋지 않은 경우가 생각보다 많이 있었다. 이런 상황에서 예측의 정확도를 높이기 위해서 모델의 최적의 파라미터를 찾거나 전처리를 잘하여 정확도를 높이는 방법이 있지만 절대적인 데이터의 양이 부족하다면 정확도를 높이는 게 한계가 있다. 그래서 정확도를 높이기 위한 방식을 찾아보다가 Synthetic Data(합성 데이터)라는 이론에 대하여 알게 되었다.

 

 Synthetic Data(합성 데이터)가 등장하게된 배경으로는 양질의 데이터를 대량으로 얻기 어려운 상황과 그리고 요즘 딥러닝에서 이슈가 되고 있는 데이터에 대한 개인정보보호 때문에 데이터를 얻는데 시간과 제한들 때문에 합성 데이터가 등장하게 되었다.

합성 데이터의 활용 분야는 생각보다 다양하다. structured data(구조화된 데이터)인 정형 데이터와 unstructured data(비정형 데이터)인 텍스트, 이미지, 영상, 오디오 등등 모든 데이터 분야에서 사용이 가능한 개념이며 실제 데이터가 존재하지는 않지만 합성 데이터 개념을 가지고 데이터셋의 양을 늘리는 게 가능하다.

 

 합성 데이터를 만들때는 먼저 실제 데이터를 얼마나 대체가 가능한지를 '효용성 척도(measure of utility)'로 나타내여 정의하고 얼마나 실제 데이터처럼 사용이 가능하지가 가장 중요하다.

 

 합성 데이터는 세 가지 유형으로 나눈다. 첫째 유형은 실제 데이터셋으로 생성하며, 둘째 유형은 실제 데이터를 사용하지 않고 생성한다. 셋째 유형은 이 두 가지 유형을 합한 하이브리드다.

 

그렇다면 이런 합성 데이터를 이용의 장점을 정리하자면 총 3가지 정도 이야기가 가능하다.

  1. 효율성- 합성 데이터를 만드는 방식에 따라 실제 데이터를 구하는 시간보다 더욱 빠르게 데이터를 만드는 게 가능하다.
  2. 익명성- 데이터가 가지고있는 개인정보보호의 무제를 해결하는 게 가능하다.
  3. 균형성- 데이터간 관계를 파악하여 합성 데이터를 만드니 데이터의 불균형을 해결하는 게 가능하다.

Synthetic Data - Real data synthetic

 실제 데이터를 가지고 합성하는 첫번째 방식은 먼저 실제 데이터에서 데이터의 분포와 구조를 파악하여 데이터 간 관계를 기반으로 모델을 구축하고 여기서 이 모델을 사용하여 합성 데이터를 만든다. 모델이 성능이 좋다면 데이터는 실제 데이터와 통계적 특성이 유사하다. 밑 사진처럼 기존 데이터를 가지고 모델을 생성하고 그 모델을 직접 적용시켜서 합성 데이터를 생성한다.

출처: https://www.hanbit.co.kr/channel/category/category_view.html?cms_code=CMS2571692038

Synthetic Data - No Real data synthetic

두번째 방식인 실제 데이터가 없는 데이터 합성 방식은 기존에 생성을 하였던 모델을 사용하거나 데이터의 배경지식을 활용하여 데이터를 생성하는 방식이다.
예를들어 배경지식은 교과서에서 배운 것이거나 다양한 역사적 조건 하에 주가 등락에 따른 금융시장 추세에 대한 같이 이전에 있었던 배경지식을 활용하여 데이터를 합성하는 방식이다. 또한 데이터의 관계를 파악했다면 상간 관계를 따져서 데이터를 생성하는 방식도 가능하다 예를 들어 데이터의 한 특성의 정규 분포가 ‘중간’ 상관관계가 있다는 가정 하에 데이터를 생성하는 방식이다.

728x90
반응형

'Machine Learning' 카테고리의 다른 글

Regression(회귀) Theory  (0) 2022.11.04
MLOps 이란?  (0) 2022.10.26
LightGBM Theory  (0) 2022.09.22
XGBoost Theory  (0) 2022.08.20
Time Series Analysis(시계열 분석)  (0) 2022.08.18
Comments