A8比A16的优势是什么? 为什么AR#会影响A8的增益?为什么AR32下,A8并没有增益,相比于A16?
2. 在LLM inference过程中,有AR1, AR32, AR64, AR128,这里的AR是什么意思?
3. 在LLM inference 过程中,what is the bert mode? what is the KV cache mode?