목록인공지능 (38)
운동하는 공대생

https://arxiv.org/abs/2404.19756v4 KAN: Kolmogorov-Arnold NetworksInspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activatarxiv.org1. IntroductionKANs 네트워크 방식은 MLP를 대체하는 새로운 방식의 layer로 본 논문에서는 소개하고 ..

논문https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.org 1. Introduction Language 모델을 활용하는 다양한 분야에서 특정 ..

1. Intro 이제는 머신러닝에서 넘어와서 딥러닝에 대하여 정리를 해보겠다. 딥러닝 분야에서의 기본이 되는 개념은 뉴런이다. 뉴런은 사람의 뇌에 존재하는 뉴런을 모방한 기술로서 전기적인 신호를 가지고 뉴런끼리의 정보 전달의 역할을 모방했다. 그래서 Artificial neurons은 input을 받아들이고 output에서는 다음 뉴런으로 그 신호를 보낼지 말지를 결정한다. 이런 뉴런들을 모아서 모델을 구성한것을 Perceptron이라고 칭하며 Perceptron 여러 Layer를 구성하게 되고 다양한 방식으로 변형되면서 지금의 딥러닝의 모델들이 탄생했다. 2. Perceptron Perceptron의 기본적인 구조는 위에 있는 그림과 같습니다. 먼저 input으로 vector형식의 데이터가 들어온다면 ..

1. Logistic Regression Linear Regression 모델을 이제까지는 알아봤는데 여기서 Regression이라는 태스크는 연속적인 데이터를 예측하는 문제이고 Classifiction이라는 태스크로 넘어가면서 이제는 더 이상 연속적인 값을 예측하는 문제가 아닌 카테고리를 분류하는 문제로 바뀐다. 여기서 이제 일반적인 Linear 모델의 구성 방식으로는 Classification 문제를 해결하기란 쉽지 않다. 왜냐하면 Classification 문제로 넘어가면서 결괏값이 0, 1 같은 이런 값으로 떨어지게 되는데 Linear모델을 활용하면 카테고리를 분류하기가 쉽지 않다. 이로 인하여 Classification 문제를 푸는 문제에서 처음으로 제시되는 방법이 Sigmoid 함수를 활용한 ..

이번 이론 정리는 혼자 머신러닝 이론에 대한 총정리를 하기 위해서 작성하였습니다. 1. Introduction Traditional Programming vs Machine Learning 기본적으로 우리가 알고 있는 프로그래밍은 프로그램을 개발하는 개발자가 프로그램에 대한 룰을 정하여 일정 데이터와 프로그램을 이용하여 결과를 도출하는 방식을 말한다. 하지만 머신러닝은 개발자가 데이터를 기반으로 데이터에 대한 패턴을 학습하여서 새로운 데이터가 입력되었을 때 결과를 도출하는 방식으로 이루어진다. 이런 머신러닝에서 데이터를 설명하는 학습 방식에는 두가지가 존재한다. Supervised Learning vs Unsupervised Learning Supervised Learning 은 한국어로 지도학습 이라고..

https://arxiv.org/abs/1503.02406 Deep Learning and the Information Bottleneck Principle Deep Neural Networks (DNNs) are analyzed via the theoretical framework of the information bottleneck (IB) principle. We first show that any DNN can be quantified by the mutual information between the layers and the input and output variables. Using this re arxiv.org 1. Introduction 논문에서는 현재 많이 사용하고 있는 딥러닝 분야에..

1. CNN(Convolution Neural Network) 합성곱 신경망(CNN, Convolutional Neural Network)은 컴퓨터 비전 작업을 위해 특히 유용한 딥 러닝 모델 중 하나입니다. 아래에서 CNN의 기본 개념과 작동 방식을 설명하겠습니다. 1. 컨볼루션(Convolution): CNN은 주로 이미지 처리에 사용되며, 이러한 이미지는 2D 그리드로 표현됩니다. 컨볼루션은 이러한 이미지에 필터(또는 커널)를 적용하여 특징을 추출하는 과정입니다. 각 필터는 입력 이미지에서 작은 영역을 선택하고 가중치를 적용하여 출력 특징 맵을 생성 합니다. 필터를 이동하면서 이미지 전체를 훑어가면서 특징을 추출합니다. 2. 필터(커널): 필터는 작은 가중치 행렬로, 입력 이미지에서 특정한 특징을 ..

1. Intro 기본적인 분류 모델에서 사용되고 있는 이론들에 대하여 정리하고 직접 실습까지 진행하는 방식으로 진행하겠습니다. 2. Definition 2.1 결정 트리 규칙 노드 : 표시된 노드는 규칙 조건이 된다. 리프 노드 : 분류된 값 서브 트리 : 전체 트리가 아닌 일부분 => 하지만 트리 구조에서 깊이가 깊어질수록 결정 트리의 예측 성능이 저하될 가능성이 높다. 그래서 정확도를 높게 가지려면 최대한 많은 데이터 세트가 분류에 속하도록 특징으로는 직관적이라 룰이 명확하고 스케일링이나 정규화 작업이 필요하지 않는다. 하지만 결정 트리 모델의 단점은 과적합으로 정확도가 떨어진다. 실습 from sklearn.tree import DecisionTreeClassifier, export_graphviz..