목록대학 (4)
운동하는 공대생

양자화에 대한 개념은 LLM 모델의 크기가 커짐에 따라서 당연하게 크기를 줄이는 방향으로 연구가 진행되면서 최근에 기본적으로 사용되는 이론이다.양자화에 대한 개념을 말하기 전에 데이터에 대한 표현 방식을 먼저 이야기를 해보자면 integer는3 → 1112 → 1100 4bit integer3 → 001112 → 1100 데이터에 대한 표현은 0과 1로 이루어져 있기 때문에 비트에 대한 제한을 준다면 4비트 int 같은 경우에는 0에서 15까지의 표현이 가능하다. 실제 우리가 사용되는 숫자의 표현은 int만이 사용되지 않고 실수를 많이 사용한다. 그렇다는 건 이것을 표현하기 위해서는 float 표현을 통해서 우리가 아는 실수를 모두 컴퓨터에서 표시를 한다.float는 32, 16,8 등으로 표현이 가능하..

1. Idea프로그램이 작동할 때 프로세스나 많은 작업들이 리소스를 사용하는데 여기서 동시에 작동하는 thread에서 공유된 자원을 활용하기에 앞서 여러 문제들이 발생한다. 그래서 이런 문제를 해결하고자 lock이라는 방식을 사용하며 이런 공유 자원들을 여러 thread에서 접근을 한다고 한다면 이를 충돌을 막기 위해 lock이 활용되는 부분을 critical section이라 한다. 동일한 리소스를 접근하는 critical section의 예시는 아래와 같다. 공유 변수 또는 데이터 구조 : 두 개의 스레드가 동시에 동일한 변수를 증가시키는 경우메모리 공유(Shared Memory)파일 시스템: 여러 프로세스가 동시에 동일한 파일에 쓰기를 하는 경우2. Lockslock은 데이터에 대한 mutual e..

1. Problem 이전에서 설명을 했지만 VA에서 PA로 주소를 변환하는 과정이 굉장히 많은 비용이 발생한다. 그래서 이런 방식은 시간이 많이 걸리고 또한 linear 한 단순한 방식이 아닌 multi-level page table 방식 같은 경우에는 더 많은 시간이 소요된다.2. TLB (Translation Lookaside Buffer)문제에서 이야기를 했듯이 translation 시간을 빠르게 하기 위해서 MMU안에 TLB라는 cache 하드웨어가 존재한다. 위에 나온 사진을 보면 먼저 offset이 4비트로 표현된 16 bytes의 크기의 page로 구성이 되어진다고 할 때 페이지의 주소를 PA로 변환하면 page table에 의하여 변환이 될 것이다. 하지만 여기서 VPN은 같고 offset..

1. CPU Scheduling정의 : 어떤 프로세스를 다음으로 실행을 할 것인지에 대한 방식 다음에 어떤 프로세스를 실행을 해야하는지는 여러 가지 지표를 통해서 선택이 되어야 한다.Minimize trunaroung time : 작업 소요 시간Minimize response time : 최초 실행 시간 Minimize waiting time : process 대기하는 queue에서 많은 시간을 사용하지 않아야 한다.Maximize throughput : 처리율이 최대로 나와야 한다.Maximize resource utilization : 디바이스 활용을 최대화Minimize overhead : context switch를 최소화해야 한다.Maximize fairness : 같은 양의 CPU 리소스를 활..