轻量的 LLM 模型推理框架

InferLLM 是一个非常轻量的 LLM 模型推理框架，主要参考和借鉴了 llama.cpp 工程，llama.cpp 几乎所有核心代码和 kernel 都放在一两个文件中，并且使用了大量的宏，阅读和修改起来都很不方便，对开发者有一定的门槛。InferLLM 主要有以下特点：

InferLLM 是一个简单高效的 LLM CPU 推理框架，可以本地部署 LLM 中的量化模型。

内容中包含的图片若涉及版权问题，请及时与我们联系删除