목록딥러닝 (62)
운동하는 공대생

1. Intro 이전까지 공부했던 내용에서는 CNN Layer를 활용하여서 이미지를 분류하였다. 하지만 최근 들어 이미지 데이터를 활용하여 분류하는 거뿐만 아니라 다양한 분야에서는 이미지 데이터를 활용한 모델들이 사용되고 있다. 공학적인 관점에서, 컴퓨터 비전은 인간의 시각이 할 수 있는 몇 가지 일을 수행하는 자율적인 시스템을 만드는 것을 목표로 한다 (많은 경우에는 인간의 시각을 능가하기도 한다). 그리고 과학적 관점에서는 컴퓨터 비전은 이미지에서 정보를 추출하는 인공 시스템 관련 이론에 관여한다. -위키백과 Computer Vision 은 그렇게 이미지 분류뿐만 아니라 이미지에서 물체를 탐지하는 Object Detection, 물체를 분류하는 Segmentation 등등 여러 태스크에서 활용이 되고..

1. Intro 이번에 새로운 프로젝트로 AutoML에 대한 인프라를 구축하는 프로젝트를 시작하게 되었습니다. 그래서 이번에 프로젝트를 들어가기 이전에 내용을 한번 정리하고 AutoML에 대하여 간단하게 설명하겠습니다. 2. What is AutoML AutoML은 "Automated Machine Learning"의 약어로, 기계 학습 모델을 자동으로 만들고 최적화하는 기술을 말합니다. 이 기술은 인공지능 모델을 개발하는 데 필요한 일련의 과정을 자동화하여, 개발자가 더 적은 노력으로 더 나은 결과물을 얻을 수 있도록 합니다. AutoML은 전통적인 기계 학습 모델 개발 방법의 몇 가지 한계를 극복할 수 있습니다. 기존에는 데이터 전처리, 특징 추출, 모델 선택 및 하이퍼파라미터 튜닝 등 다양한 작업을..

1. Features 이미지 상에서 존재하는 공통 특정 패턴에 대한 이미지를 모양을 정의한다. 각각 생성한 패턴의 이미지는 2차원의 작은 이미지 형태로 표시하며 패턴을 각각 이미지에 위치시켜서 이미지 패턴이 얼마나 겹치는지를 수치적으로 정의가 가능하다. 2. Convolution 각각의 생성한 패턴을 이미지에 매칭을 시켜서 수치적으로 환산을 하는 방식을 convolution 방식이라고 한다. 이 방식은 각각 생성한 패턴을 이미지에 대조해서 각 자릿수를 곱하여 총합의 평균으로 그 이미지와 패턴의 매칭되는 정도를 수치화한다. 이때 패턴과 이미지가 같은지 다른지를 각각의 픽셀 단위로 계산이 이루어지며 만약 같은 부분이라면 1 ( 1 * 1 =1 or -1 * -1 =1 )다르면 -1 ( 1 * -1 = -1 ..

1 Intro 이미지 분석, 텍스트 분석 등 다양하게 딥러닝 모델과 프로세스들이 각광받고 있는 요즘 Text Extraction 즉 이미지에서 텍스트 정보를 인식하고 데이터화하는 방식에 대한 연구를 진행하였고 내가 사용하였던 layoutlmv2 모델의 이론과 그리고 코드를 리뷰해보려고 한다. 2 Process 이미지에서 텍스트를 추출하는 방식을 간단하게 도식화 하자면 아래의 그림과 같다. 먼저 아래의 그림처럼 이미지에서 text 즉 글씨의 정보를 OCR 기법을 이용하여 단어의 위치와 범위를 bounding box 형식으로 구분하여 지정을 한다. 그 이후에 위치정보와 텍스트 정보를 이요하여서 Layoutlmv2 모델에 적용하고 모델을 학습시킨 후 그 단어가 어떤 layout 에 지정이 되는지를 예측하는 방..

이전 까지는 문장에서 단어의 빈도를 바탕으로 하는 NLP 방법을 알아보았다. 이 방식의 큰 문제는 단어의 빈도를 바탕으로 처리를 해서 문서의 특징을 파악하는 건 가능하지만 각 단어 간의 유사성이나 의미를 파악하기는 어렵다. 예를 들어서 뜻이 다른 같은 단어가 여러 개 나오는 문장에서 이전 방식을 사용하면 의미를 파악하기보다는 문장의 특징을 파악하는 건 가능하지만 그 단어가 다르다는 의미를 파악하기는 어렵다 가령 '날아다니는 파리'와 '프랑스의 수도인 파리' 같은 예시이다. 워드 임베딩 예측을 기반으로 하는 벡터 임베딩 방식을 이용하기 이전에 단어를 수치적으로 표현하는 방식인 워드 임베딩 방식을 꼭 알아햐 한다. 예측을 하기 위한 단어의 데이터를 수치화를 시켜서 예측이 가능한 형태로 바꿔주는 작업니다. 예..
NLP 방식에서 횟수 기반 임베딩(Frequency - based Embedding)은 단어의 빈도수를 바탕으로 하는 NLP 방법이다. 여기서 가장 자주 사용하고 있는 방식은 BOW, Count Vector, TF-IDF Vector 기법이 있다. BOW BOW 방식은 주어진 문장을 형태소 분석을 통해 문자나 단어를 분리하고, 분리된 문자를 인덱스 번호를 부여하여 빈도수로 벡터화를 시키는 방식을 BOW 방식이라고 말한다. 예를 들어, 다음과 같은 단어별로 인덱스를 부여했다고 가정해 보자. 이를 'BOW를 정의했다'라고 한다. "I" -------------- 0 "teacher" ------- 1 "am"------------ 2 "top" ----------- 3 "a" ------------- 4 "..

교차 검증 모델을 학습하면서 교차 검증을 하는 이유는 무엇일까. 이유는 바로 과적합(Overfitting)의 문제를 보안하기 위해서 이다. 과적합 문제는 모델학습 과정에서 항상 주의를 해야 하는 문제로 훈련 데이터에만 모델이 치중하여 학습을 하면 실제 데이터를 가지고 예측을 하였을 때 성능이 떨어지는 문제를 말한다. 그렇다면 교차 검증 방식은 어떻게 작용할까? 교차 검증 방식은 데이터 편중을 막기 위해서 학습 데이터 세트를 가지고 학습 데이터와 검증 데이터 세트를 또한번 나눠서 실제 학습을 하기 이전에 1차 평가를 하는 방식이다. 그렇게 된다면 최종 학습을 하기 위해서 모델의 최적화를 학습 이전에 가능하다. K-Fold K-Fold 교차 검증 방식은 가장 보편적으로 사용되는 교차 검증 기법이다. K-Fo..

https://seungwoni.tistory.com/30 Deep Learning(딥러닝) Intro 머신러닝 분야를 공부를 시작하면서 자연스럽게 접하게 되었던 딥러닝 분야 공부를 항상 미뤄왔다가 이번 여러 대회를 참가하면서 비정형 데이터들의 분류와 예측하는 대회들이 유행하고 seungwoni.tistory.com 단층 퍼셉트론 그림 1. 에서 퍼셉트론의 구조를 간단하게 표현을 해놨다. 그림 1을보면 , x1에 w1부터 xn에 wn까지의 값이 있는데 w(Weight)는 가중치라고 보면 됩니다. 컴퓨터의 판단 없이 실제 있는그대로의 Data 가 X값이며, W값은 가중치 혹은 보정치가 되는 값이라고 보면 됩니다. w값도 4개이고, x의 값도 네개이니, 위 개념도는 즉 x1w1, x2w2, x3w3, x4w..