MIT efficent.ML

Lab 1 : Magniuted Pruning vs Channel Pruning

Fine-Grained Pruning
- 장점
  - Performance가 더 뛰어나다.
  - Performance 대비 compression ratio가 높다.
- 단점
  - 특정한 hardware나 system의 design이 필요하다.
Channel Pruning
- 장점
  - 특정한 hardware나 system의 design이 필요없다.
- 단점
- Performance가 더 낮다.
  - Performance 대비 compression ratio가 낮다

Report 링크 : [Report] , Code 링크 : [code]

Lab 2 : Linear Quantization vs K-means Quantization

K-means
- 장점
  - 구현이 쉽다
  - Hardware support가 덜 필요하다.
  - Latency가 낮다.
- 단점
  - Accuracy가 낮다.
Linear Quantization
- 장점
  - Accuarcy가 높다
- 단점
  - 구현이 어렵다
  - Latency가 높다
  - Hardware support가 필요하다(integer based .maxpooling, average pooling)
Code 링크 :[code] , Report 링크 :[Report]

Lab 4 : LLM Quantization with AWQ

LLM에서의 Quantization은 outlier 와 cluster 간의 빈 공간을 줄여서 quantization error를 최소화하고, mixed precision을 사용하는 대신에 , scaling factor를 통해 이를 흉내낼 수 있다.
하지만, scaling factor로 인해 outleir와 cluster간의 빈 공간이 늘어나는 것을 고려를 해주어야 한다.
코드 링크 :[code] , Report 링크:[Report]

Page updated

Google Sites

Report abuse