목록대학원생 (31)
운동하는 공대생

모바일 디바이스에 인공지능 실험을 위한 디바이스 루트 권한을 부여하기 위하여 구동하였다. 연구 공부 환경설정 숙지를 위한 정리 내용입니다. 다만 한국 내수용 모델인 SM-S931N 모델에서 하였다. 모델 확인이 필요! S25 Magisk 설치1. Magisk release apkhttps://github.com/topjohnwu/Magisk/releases Releases · topjohnwu/MagiskThe Magic Mask for Android. Contribute to topjohnwu/Magisk development by creating an account on GitHub.github.com먼저 Magisk release apk를 다운로드한다. 2. APK 설치adb를 활용하여 apk ..

안녕 오늘은 주말인데 일기를 쓰는 중임 오늘 아침부터 대학원 구술 면접 도움이? 그런 걸 했는데 내가 왜 긴장이 됐는지... 뭔가 다들 열심히 노력하는 모습을 다시 보니까 나도 자극이 다시 온 느낌임 다들 좋은 결과 있었으면 좋겠네 나도 사실 완전 초반이라 면접을 본 게 생생한데 나도 그 당시에 엄청 떨면서 대기를 했던 기억이 있어서 오늘 뭐가 대기를 하면서 뭘 물어보는 사람이 있으면 더 긴장을 풀라고 이야기를 했음 사실 당사자 입장에서는 그런 조언이 귀에 들어오지는 않겠지만... 아침에는 컴공 대학원 시험이 있었는데 오늘 면접을 보러 온 사람들이 거의 정장을 많이 입고 있어서 놀랐음 사실 나는 면접 때 셔츠 하나만 입고 와서 ㅋㅋㅋㅋㅋ 면접은 3시간? 그 정도 한 거 같고 사실 그 안에서 계속 면접을 ..

이번에 챌린지 시작하면서 그냥 하루에 논문 하나씩 읽어서 올려야지~ 계획을 했지만 개같이 실패....뭐 그 다음으로 시작을 해보자 한 게 일기를 쓰기로 했음 사실 일기를 써본게 언제인지 생각이 안 날 정도로 일기를 쓴 기억이 별로 없음 군대에서 하루에 한 페이지씩 매일 일하면서 일기를 써본 기억은 있지만 그때의 추억을 살려서 한번 하기로 생각함 오늘 아침에 일어나서 며칠째 고생하고 있던 문을 고칠 기회가 생김 이건 진짜 고치고 싶었는데 막상 해보니까 너무 어려움 문이 녹슬었다면 미리 미리....바꾸자... 그래서 당근에 이제 살려달라고 올림 그러니 구원자가 왔음 (사실 돈을 달라고 그래서 많이는 안 고마움) 문을 고치고 나니까 이제 11시가 넘어 밥 먹고 연구실 출발 날씨 진짜 미친놈임 11..
1. Intro요즘 모델들을 압축하기 위해서 많은 방식을 사용을 하지만 이런 방식들은 compression ratio가 커지면 정확도가 떨어지는 문제가 발생한다.그래서 LLM performance는 유지하면서 높은 압축을 하는 방법이 없을까? 라는 질문에서 시작본 논문에서는 sparsification과 quantization을 같이 고려한다. 이 두가지 방법을 사용하는 첫 논문이라고 이야기를 한다.두가지를 동시에 사용이 가능한 이유는 크게 2가지 중요한 이유가 있는데 첫번째는 두가지는 반대되는 성향을 가진다. Sparsification은 그 파라미터의 가장 절댓값이 큰값으로 표현되며 양자화는 작은 range로 양자화 되려고 한다.즉 작은 값을 유지하면 QUANTIZATION에는 좋아도 sparsifica..

1. SwappingSwapping이란 먼저 물리적 메모리에 공간(RAM)이 충분하지 않을 때 발생합니다. 즉 실행을 해야 하는 프로세스를 저장 공간의 부족으로 잠시 다른 스토리지에 프로세스를 옮겨두는 방식을 말한다. 예를 들어 물리적 주소가 cache라고 한다면 저장 공간이 적어서 많은 프로세를 동시에 메모리에 저장을 하기가 어려우니 실행 중이지 않은 그런 프로세스를 디스크에 위치시킨다. 메모리의 계층으로 본다면 각각의 메모리가 공간의 부족으로 메모리가 더 많은 메모리로 저장하는 그런 위치는 모든 메모리에서 가능하며 이것을 backing store 이라고 이야기한다.2. SwapMemory overlays이 방식은 가장 원시적인 방법으로 코드나 데이터를 프로그래머가 변경을 해주는 방식이다.Process..

1. Linear Page Table주소체계가 32-bit라고 한다면 page의 크기가 4KB이고 page-table entry는 4-byte라고 한다면 최종적으로 2^20 개의 엔트리가 존재한다면 2^20*4Byte = 4MB의 페이지 테이블이 프로세스마다 필요로 하게 된다. 그럼 linear 방식은 1024개의 process가 존재한다면 총 1024 processes * 4MB 이렇게 생각보다 많은 메모리를 필요로 하게 된다.하지만 이런 방식에서는 문제는 페이지 테이블의 낭비가 심하다는 문제가 있다. 2.Paging and Segments(Hybrid Approach)이전에 이야기를 했듯이 segmentation 방식에서는 다양한 길이의 segment로 주소를 나눈다. 하지만 paging방식은 정해진..

1. Recap운영체제에서 메모리에 저장되어 있는 process를 접근을 해야 하는데 이것은 보안에 문제가 생긴다. 그래서 이런 문제를 해결하고자 메모리의 직접적인 주소를 참조하는 게 아니라 가상의 주소를 참조하게 하는 것을 이것의 해결 방법으로 사용하고 있다. 이는 3가지 측면에서 효율성을 보인다. Protection각각의 서로 다른 프로세스가 서로를 보호 하기 위해서 VM이 작동해야 하며 이는 각각의 프로세스가 독립성을 가지게 해 준다.Transparency메모리의 실질적인 주소를 알 필요가 없기 때문에 프로그래밍의 편의성을 만들어 준다.Efficiency다양한 사이즈에 대한 메모리 분할을 최소화하는 게 가능하다. 2. Virtual Memory프로세스의 주소는 가상의 메모리 주소를 가지고 있으며 이..

논문https://arxiv.org/abs/2403.02310 Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-ServeEach LLM serving request goes through two phases. The first is prefill which processes the entire input prompt and produces the first output token and the second is decode which generates the rest of output tokens, one-at-a-time. Prefill iterations have hiarxiv.org1. Introduction본 논문에서는 기존의 L..