목록System (2)
운동하는 공대생

논문https://arxiv.org/abs/2403.02310 Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-ServeEach LLM serving request goes through two phases. The first is prefill which processes the entire input prompt and produces the first output token and the second is decode which generates the rest of output tokens, one-at-a-time. Prefill iterations have hiarxiv.org1. Introduction본 논문에서는 기존의 L..

1. 프로세스프로세스(process)란 실행 중인 프로그램을 의미합니다. 운용체제 영역에서 각각의 프로세스를 관리하기 위해서는 Process Control Block(PCB)라는 것을 두고 프로세스에 대한 정보를 보관한다. 2. 프로세스 상태 관리기본생성 상태 : PCB 를 생성하고 작업 큐에 넣는다. 이때 프로세스 번호(PIC)가 결정된다. 이후에 준비 상태로 넘어간다.준비 상태 : 프로세스는 준비 큐(ready queue)에 머물고 있다가 스케줄러에 의해 선택되면 CPU에 할당받는다. CPU에 할당하는 과정을 디스패치(dispatch)라고 한다.실행 상태 : CPU가 프로세스의 명령을 처리하며 처리되다가 스케줄러가 준비 큐에서 다른 프로세스를 선택하게 된다면 실행중인 프로세스는 회수당하며 준비 상..