Lab 1 : Magniuted Pruning vs Channel Pruning
Fine-Grained Pruning
장점
Performance가 더 뛰어나다.
Performance 대비 compression ratio가 높다.
단점
특정한 hardware나 system의 design이 필요하다.
Channel Pruning
특정한 hardware나 system의 design이 필요없다.
Performance가 더 낮다.
Performance 대비 compression ratio가 낮다
Report 링크 : [Report] , Code 링크 : [code]
Lab 2 : Linear Quantization vs K-means Quantization
K-means
구현이 쉽다
Hardware support가 덜 필요하다.
Latency가 낮다.
Accuracy가 낮다.
Linear Quantization
Accuarcy가 높다
구현이 어렵다
Latency가 높다
Hardware support가 필요하다(integer based .maxpooling, average pooling)
Code 링크 :[code] , Report 링크 :[Report]
Lab 4 : LLM Quantization with AWQ
LLM에서의 Quantization은 outlier 와 cluster 간의 빈 공간을 줄여서 quantization error를 최소화하고, mixed precision을 사용하는 대신에 , scaling factor를 통해 이를 흉내낼 수 있다.
하지만, scaling factor로 인해 outleir와 cluster간의 빈 공간이 늘어나는 것을 고려를 해주어야 한다.
코드 링크 :[code] , Report 링크:[Report]