목록논문 (12)
운동하는 공대생
1. Intro요즘 모델들을 압축하기 위해서 많은 방식을 사용을 하지만 이런 방식들은 compression ratio가 커지면 정확도가 떨어지는 문제가 발생한다.그래서 LLM performance는 유지하면서 높은 압축을 하는 방법이 없을까? 라는 질문에서 시작본 논문에서는 sparsification과 quantization을 같이 고려한다. 이 두가지 방법을 사용하는 첫 논문이라고 이야기를 한다.두가지를 동시에 사용이 가능한 이유는 크게 2가지 중요한 이유가 있는데 첫번째는 두가지는 반대되는 성향을 가진다. Sparsification은 그 파라미터의 가장 절댓값이 큰값으로 표현되며 양자화는 작은 range로 양자화 되려고 한다.즉 작은 값을 유지하면 QUANTIZATION에는 좋아도 sparsifica..

논문https://arxiv.org/abs/2403.02310 Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-ServeEach LLM serving request goes through two phases. The first is prefill which processes the entire input prompt and produces the first output token and the second is decode which generates the rest of output tokens, one-at-a-time. Prefill iterations have hiarxiv.org1. Introduction본 논문에서는 기존의 L..

(논문을 작성하는 과정에서 개인적으로 시간이 많이 걸린 부분인데 이것을 정리하기 위해서 작성하였습니다.) 아래의 두 개의 이미지는 Imagenet data에서 가지고 온 사진이다. 여기서 두개의두 개의 이미지 데이터를 활용하여 segmentation 분야에서 두 개의 이미지를 겹치게 이미지를 편집하는 방법을 하고 싶었다. image ( 원본 이미지) mask ( segmentation의 mask) 결과 이렇게 두 개의 이미지를 겹쳐서 cv에서 모델이 얼마나 경확도를 유지하는지를 보고 싶었다. 퍼센트를 설정값으로 겹치는 정도를 나타냈으며 0~1 사이의 값을 설정하고 1이 완전히 겹치는 상황을 가정하였다. 0.7 퍼센트 0.4 퍼센트 코드 def find_contours(self, mask): ..

https://arxiv.org/abs/2404.19756v4 KAN: Kolmogorov-Arnold NetworksInspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activatarxiv.org1. IntroductionKANs 네트워크 방식은 MLP를 대체하는 새로운 방식의 layer로 본 논문에서는 소개하고 ..

논문https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.org 1. Introduction Language 모델을 활용하는 다양한 분야에서 특정 ..

https://arxiv.org/abs/1503.02406 Deep Learning and the Information Bottleneck Principle Deep Neural Networks (DNNs) are analyzed via the theoretical framework of the information bottleneck (IB) principle. We first show that any DNN can be quantified by the mutual information between the layers and the input and output variables. Using this re arxiv.org 1. Introduction 논문에서는 현재 많이 사용하고 있는 딥러닝 분야에..

논문 https://arxiv.org/abs/2008.00623v2 DeLighT: Deep and Light-weight Transformer We introduce a deep and light-weight transformer, DeLighT, that delivers similar or better performance than standard transformer-based models with significantly fewer parameters. DeLighT more efficiently allocates parameters both (1) within each Transforme arxiv.org 1. Introduction 이 논문에서 제시하는 DeLighT 모델은 기존 transfo..

1. Intro multivariate time series 데이터에 대한 학습을 진행하는 대표적인 방식인 spatial-temporal graph neural networks 방식이 있다. 이 방식에서는 그래프 구조를 input으로 하여 모델을 학습을 진행한다. 그래프로 구성하지 않는 방식보다 많은 개선점이 있지만 여전히 몇 가지 문제는 남아있다. 문제 1 : 대부분의 multivartiate time series 데이터들은 그래프 구조를 하고 있지 않다. 변수들 간의 관계는 데이터를 보고 발견된다. 문제 2: 그래프 구조가 가능하더라고 대부분의 message passing에 주의를 기울이기 때문에 훈련 과정에서 그래프 구조가 optimal 하지 않을 수 있다. 본 논문에서는 이런 문제들을 해결하려고 ..