운동하는 공대생

[논문]MAD-GAN: Multivariate Anomaly Detection for Time Series Datawith Generative Adversarial Networks 본문

논문

[논문]MAD-GAN: Multivariate Anomaly Detection for Time Series Datawith Generative Adversarial Networks

운동하는 공대생 2023. 8. 27. 17:17
728x90
반응형

논문

https://arxiv.org/abs/1901.04997

 

MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks

The prevalence of networked sensors and actuators in many real-world systems such as smart buildings, factories, power plants, and data centers generate substantial amounts of multivariate time series data for these systems. The rich sensor data can be con

arxiv.org

1. Intro

저자는 다양한 시계열 데이터가 사용되는 multivariate 한 데이터를 활용한 영역을 Cyber-Physical Systems(CPSs)라고 이야기하며 이런 영역에서 anomaly를 탐지하는 게 중요하다 이야기한다. 그리고 현재까지의 방식들은 예측된 범위를 단적으로 정상 범위와 비교하여 anomaly를 탐지하는 게 대부분이다. 그래서 이 논문에서는 시계열 데이터를 생성하는 모델을 GAN로 사용하면서 Multivariate에 대한 Anomaly Detection을 수행한다고 이야기를 한다.

 

2. Related Works

Anomaly한 데이터에 대한 Labeling 이 부족한 상황에서는 unsupervised 한 방식을 사용하여 모델을 훈련해야 한다. 비지도 학습의 카테고리는 1. Linear model-based method 2. distance-based methods 3. probabilistic and density estimation-based method 4. deep learning-based methods 이렇게 4개로 구분된다.

 

  • Linear model-based method 

이 방식중에서 유명한 방식은 Principal Component Analysis(PCA) 고차원의 데이터를 저 차원으로 축소하여 데이터를 분석하는 방식과 PLS 등이 있다. 하지만 이런 방식은 데이터끼리 관계성이 확실해야 한다.

  • Distance-based methods

거리 기반 방식에서는 K-Nearest Neighbor(KNN)이나 Clustering- Based Local Outlier Factor처럼 데이터들 간의 거리로 Anomaly를 파악하는 방식이다.

  • Probabilistic and density estimation-based method

이 방식은 거리기반 방식에서 조금 더 발전하여 분포에 대하여 더 신경 쓴 방식이지만 다변수 시계열 데이터를 다루기에는 작 작동하지 않는다.

  • Deep learning-based methods

딥러닝을 기반으로 한 방식이 이미 Auto-Encoder로 다변수 anomaly 입증이 되어있고 높은 성능을 보이기 때문에 이 방식을 기반을 논문에서는 GAN으로 사용한다고 말한다.

 

3 Anomaly Detection with Generative Adversarial training

3.1 MAD-GAN Architecture

모델의 아키텍처는 먼저 LSTM-RNN를 생성자와 판별자로 구성하였고 Random Latent Space에서 sequences 정보를 기반으로 생성자가 가자 시계열 데이터를 생성하고 이것을 판별자가 판결을 하는데 여기서 전체 시계열 데이터가 들어가는 게 아니라 일정 window 사이즈를 설정하고 이것을 기반으로 시계열 데이터를 잘라서 데이터가 들어간다. Sw = 30 × i, i = 1, 2,..., 10. 이런 식으로 표현한다.

일반적이 GAN 방식처럼 매개변수 D, G를 사용하는데 그리고 동시에 2가지 작업이 anomaly detector에서 이루어진다.

1. reconstruction: 여기서 판별자와 생성자의 훈련 과정에서 생성되는 매개변수를 활용하여서 실시간으로 데이터를 생선 하고 이것을 GAN alten space에 매핑한다. 

2. discrimination: 판별자 매개변수 D를 활용하여서 시계열 데이터를 분류한다. 

 

이렇게 모델의 학습과 테스팅 샘플에 대한 구성이 동시에 이루어지며 테스팅샘플의 구성을 모델을 학습하는 중에 G, D의 매계변수를 활용하고 이것을 시계열 데이터로 재구성하고 실재 테스팅 샘플들과 비교하고 차이를 다시 GAN을 학습하는 Random Latent Space로 매핑한다. 이것 또한 window 사이즈로 나눠서 작동하고 이것을 Discrimination and Reconstruction Anomaly Score (DR-Score)를 통해서 anomaly에 대한 점수를 측정한다.

 

 

3.2 GAN-based Anomaly Detection

GAN을 사용한 이상 3.2 GAN-based Anomaly Detection 탐지 문제를 다음과 같이 정의한다. 훈련 데이터셋 X에는 T 개의 스트림과 각 스트림마다 M 개의 측정치가 있으며, 테스트 데이터셋 X_test에는 T 개의 스트림과 각 스트림마다 N 개의 측정치가 있다. 이제 과제는 테스트 데이터셋의 각 측정치에 대해 이진 레이블 (정상인 경우 0, 이상인 경우 1)을 할당하는 것입니다. 훈련 데이터셋의 점은 모두 정상임을 가정한다.

X 데이터셋을 효과적으로 학습하기 위해 슬라이딩 윈도우를 사용하여 다변량 시계열을 작은 다변량 하위 시퀀스로 나눈다. 생성자와 판별자는 Long Short Term-Recurrent Neural Networks (LSTM-RNN)로 구성되며, 반복 훈련 라운드를 거치면서 훈련된 판별자와 생성자는 DR-Score를 사용하여 테스트 데이터셋 X_test에서 이상을 감지하는 데 사용된다.

DR-Score는 판별과 재구성을 결합한 이상 점수로, 테스트 데이터셋을 다변량 하위 시퀀스로 나눈 후 계산된다. 이 점수를 사용하여 각 하위 시퀀스에 대한 레이블을 지정하며, 이상 점수의 교차 엔트로피 오차가 미리 정의된 임계값을 초과하면 이상으로 판별한다.

 

3.3 DR-Score: 판별과 재구성을 모두 활용한 이상 탐지

 


GAN을 사용하는 장점 중 하나는 판별자와 생성자가 동시에 훈련된다. 이를 활용하여 정상 상태의 변이를 나타내기 위해 훈련된 판별자와 생성자를 모두 사용하여 이상을 탐지한다.
1. 판별 기반 이상 탐지
훈련된 판별자 D는 가짜 데이터(이상 데이터)와 실제 데이터를 민감하게 구별할 수 있기 때문에 이를 바로 이용하여 이상을 탐지한다.

2. 재구성 기반 이상 탐지
훈련된 생성자 G는 실제적인 샘플을 생성할 수 있으며, 이는 잠재 공간에서 실제 데이터 공간으로의 매팅된다. 이는 정상 데이터의 분포를 반영하는 암묵적인 시스템 모델로 볼 수 있다. 잠재 공간의 부드러운 전이 특성으로 인해 잠재 공간 내의 가까운 입력은 생성자가 유사한 샘플을 출력한다는 특성을 갖는다. 이에 따라 테스트 데이터 X_test에 해당하는 잠재 공간 내의 Z_k를 찾으면, 테스트 데이터와 G(Z_k) (재구성된 테스트 샘플) 간의 유사성을 통해 테스트 데이터가 G에 의해 반영되는 분포를 얼마나 따르는지를 평가할 수 았다.

728x90
반응형
Comments