很喜欢这次的课程,这次课程加入了一些我比较想了解的技术内容,比如量化部署,之前一直对量化有误解,今天才学习到原来计算时候是要反量化的。 批处理,课程介绍了turbomind的持续批处理优化(感觉有点类似 CPU 的指令流水线,CPU 也是访存压力大于计算压力,从需求和解决方式上都有点像) https://github.com/InternLM/tutorial/blob/main/lmdeploy/img/6.png 之前就听说过的张量并行,这几个图放的很有助于理解。