목록논문 (14)
운동하는 공대생
논문https://ieeexplore.ieee.org/document/6925999 PALLOC: DRAM bank-aware memory allocator for performance isolation on multicore platformsDRAM consists of multiple resources called banks that can be accessed in parallel and independently maintain state information. In Commercial Off-The-Shelf (COTS) multicore platforms, banks are typically shared among all cores, even though programs runningieeexp..
1) LeaFTL should be able to automatically capture diverse dataaccess patterns, and generate memory-efficient address mapping3.1 key Ideas of LeaFTL기존에는 하나씩 메핑하는 방식을 취할때 buffer를 두는데 이걸 활용해서 leaftl은 이런 버퍼를 오버헤드를 최소화 한다.총 128 개의 LPA-PPA 엔트리를 커버가 가능하다.each learned index segment can be represented in 8 bytes: 1 byte for 𝑆𝐿𝑃𝐴 and 𝐿, respectively; 2 bytes for 𝐾, and 4 bytes for I추가적인 데이터를 사용하지 않음..
1. Intro요즘 모델들을 압축하기 위해서 많은 방식을 사용을 하지만 이런 방식들은 compression ratio가 커지면 정확도가 떨어지는 문제가 발생한다.그래서 LLM performance는 유지하면서 높은 압축을 하는 방법이 없을까? 라는 질문에서 시작본 논문에서는 sparsification과 quantization을 같이 고려한다. 이 두가지 방법을 사용하는 첫 논문이라고 이야기를 한다.두가지를 동시에 사용이 가능한 이유는 크게 2가지 중요한 이유가 있는데 첫번째는 두가지는 반대되는 성향을 가진다. Sparsification은 그 파라미터의 가장 절댓값이 큰값으로 표현되며 양자화는 작은 range로 양자화 되려고 한다.즉 작은 값을 유지하면 QUANTIZATION에는 좋아도 sparsifica..

논문https://arxiv.org/abs/2403.02310 Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-ServeEach LLM serving request goes through two phases. The first is prefill which processes the entire input prompt and produces the first output token and the second is decode which generates the rest of output tokens, one-at-a-time. Prefill iterations have hiarxiv.org1. Introduction본 논문에서는 기존의 L..

논문https://arxiv.org/abs/2106.09685 LoRA: Low-Rank Adaptation of Large Language ModelsAn important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes learxiv.org 1. Introduction Language 모델을 활용하는 다양한 분야에서 특정 ..

https://arxiv.org/abs/1503.02406 Deep Learning and the Information Bottleneck Principle Deep Neural Networks (DNNs) are analyzed via the theoretical framework of the information bottleneck (IB) principle. We first show that any DNN can be quantified by the mutual information between the layers and the input and output variables. Using this re arxiv.org 1. Introduction 논문에서는 현재 많이 사용하고 있는 딥러닝 분야에..

논문 https://arxiv.org/abs/2008.00623v2 DeLighT: Deep and Light-weight Transformer We introduce a deep and light-weight transformer, DeLighT, that delivers similar or better performance than standard transformer-based models with significantly fewer parameters. DeLighT more efficiently allocates parameters both (1) within each Transforme arxiv.org 1. Introduction 이 논문에서 제시하는 DeLighT 모델은 기존 transfo..

논문 https://arxiv.org/abs/1901.04997 MAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks The prevalence of networked sensors and actuators in many real-world systems such as smart buildings, factories, power plants, and data centers generate substantial amounts of multivariate time series data for these systems. The rich sensor data can be con arxiv.o..