목록전체 글 (115)
운동하는 공대생

Intro Docker container Image 기반으로 AWS Lambda 함수를 구현을 어떻게 하는지 설명을 하겠다. Process EC2 EC2 생성과 접속 EC2 환경에서 Docker 설치 및 Docker Image 생성 ECR 생성 및 이미지 푸시 AWS Lambda 에 적용 1 .EC2 아마존 일래스틱 컴퓨터 클라우드(Amazon Elastic Compute Cloud, EC2)아마존 클라우드 컴퓨팅 플랫폼에서 제공하는 가상 서버이다. Amazon Linux 환경으로 인스턴스를 생성하고 인스턴스 유형 그리고 각종 설정을 해서 인스턴스를 생성한다. 2 .EC2 생성과 접속 인스턴스를 환경에따라 접속하는 방식이 다른데 독립 실행형 ssh 클라이언트를 사용하였다. 윈도우의 경우 PuTTy 를 사..
Intro ML 프로젝트 진행 중에 지속적으로 나왔던 MLOps 이론에 대하여 정리의 필요성을 느끼고 내용을 한번 공부하고 정리하는 차원에서 글을 작성을 하겠다. 먼저 MLOps 라는 개념이 언급되었던 이유는 ML 분야에서 데이터를 정제하고 모델을 학습시키고 그리고 그 모델을 평가, 배포하는 이런 일련의 과정이 생각보다 많은 분야이 사람들과 그리고 시간, 인력 등 많은 작업들을 필요로 한다. 그래서 이런 과정들을 하나의 파이프라인을 구조화하여 빠르고 단순하게 ML을 구현이 가능할까? 하는 물음에서 이 개념이 언급이 되었다. MLOps란 이전에 미리 존재하는 DevOps(Software Devdlopment and IT Operation)이론과 비슷한 개념으로 MLOps(Machine Learning Op..

이전 글 GAN(Generative Adversarial Networks)(2/3) Structure of the GAN 위의 사진처럼 2가지의 주요 한 구성 요소로 이루어져 있다. 생성자, 판별자 두 가지 구조를 가지고 있으며 2가지의 네트워크를 활용하여 이미지를 생성하는 이론이다. -Generator( seungwoni.tistory.com 이전 글을 읽었다면 이제 이후에 GAN 론이 어떻게 적용이 되는지를 설명을 하겠다. GAN의 수렴 과정 먼저 과정을 해석하자면 생성모델의 분포는 점점 실제 데이터와 같아 지게 만들어야한다. 이때 GAN은 2가지의 목표를 가지고 수렴한다. Pg -> Pdata : 생성자의 분포가 원본 데이터의 분포를 따르게 수렴을 해야한다. 이는 원본 데이터의 분포에 맞게 수렴을 ..

Structure of the GAN 위의 사진처럼 2가지의 주요 한 구성 요소로 이루어져 있다. 생성자, 판별자 두 가지 구조를 가지고 있으며 2가지의 네트워크를 활용하여 이미지를 생성하는 이론이다. -Generator(생성자) 생성자는 노이즈 값을 받아서 새로운 인스턴스를 생성하는 역할을 한다. -Discriminator(판별자) 판별자는 실제 이미지를 가지고 얼마나 생성자의 이미지와 일치하는지를 확률값으로 반환을 해준다.(Real:1 ~ Fake:0) Formula of GAN 대략적인 식은 이렇게 표시가 된다. 이제 식 하나하나 어떤 의미를 가지고 있는지를 이야기를 해보겠다. 먼저 공식의 전체적인 의미를 가지고있는 부분이 이 부분이다. 천천히 해석을 해보자면 G(생성자)의 값은 최소가 돼야 하고 ..

Intro 이전 Synthetic Data 글에서 합성 데이터에 대한 이야기를 했었다. 이런 합성 데이터를 생성을 하기 위해서 최근 가장 주목을 받고 있는 GAN(Generative Adversarial Networks)이라는 개념을 설명을 하겠다. Synthetic Data(합성 데이터) What is Synthetic Data 머신러닝 모델을 만들고 적용을 시켜 예측을 하다 보니 데이터의 양이 너무 적어서 예측의 정확도가 좋지 않은 경우가 생각보다 많이 있었다. 이런 상황에서 예측의 정확도를 seungwoni.tistory.com GAN이 처음 등장한 2014년 이미지 생성을 위해 GAN이론이 등장하게 되었다. 이 이론은 현재 데이터 분야에서 아주 주목을 받고 있는 이론이며 지금까지도 관련 논문이 지..

What is Synthetic Data 머신러닝 모델을 만들고 적용을 시켜 예측을 하다 보니 데이터의 양이 너무 적어서 예측의 정확도가 좋지 않은 경우가 생각보다 많이 있었다. 이런 상황에서 예측의 정확도를 높이기 위해서 모델의 최적의 파라미터를 찾거나 전처리를 잘하여 정확도를 높이는 방법이 있지만 절대적인 데이터의 양이 부족하다면 정확도를 높이는 게 한계가 있다. 그래서 정확도를 높이기 위한 방식을 찾아보다가 Synthetic Data(합성 데이터)라는 이론에 대하여 알게 되었다. Synthetic Data(합성 데이터)가 등장하게된 배경으로는 양질의 데이터를 대량으로 얻기 어려운 상황과 그리고 요즘 딥러닝에서 이슈가 되고 있는 데이터에 대한 개인정보보호 때문에 데이터를 얻는데 시간과 제한들 때문에 ..

Intro 프로젝트를 진행하면서 AWS에서 지원하지 않는 서비를 이용하기 위해서 다른 외부의 API를 호출해야 하는 일이 있었다. 이는 영수증 정보(이미지) 파일을 입력하면 파일에 있는 텍스트 정보를 추출하여 저장해주는 서비스이다. 이는 OCR이라는 기법이다. What is OCR Optical Character Recognition(OCR)[1] 보통 컴퓨터가 2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어 들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다. 출처:https://namu.wiki/w/OCR Naver CLOVA OCR ..
Intro Lambda에서 기본적으로 제공하지 않는 외부 함수들을 사용하기 위해 여러 방식을 찾아보다가 하나의 방식으로 찾았던 방식이 Docker Container를 이용하여 함수를 불러오는 방식이 있었다. 그래서 이번에는 이 방식이 무엇인지를 설명하려고 한다. What is Cloud Computing? 클라우드 컴퓨팅 = 그리드 컴퓨팅 + 유틸리티 컴퓨팅 이렇게 그리드 컴퓨팅과 유틸리티 컴퓨팅 방식을 결합한 방식을 클라우드 컴퓨팅 기술이라고 한다. 각각 설명을 하자면 그리드 컴퓨팅 방식은 가상 네트워크를 이용하여 분산된 컴퓨팅 자원을 공유하도록 하는 방식 이다. 그리고 유틸리티 컴퓨팅 방식은 컴퓨터 자원을 사용하는 이용자가 자원의 사용량에 따라 요금을 부과하는 방식을 이야기 한다. 이는 전체적인 사용..