2023年9月29日 分类于 技术 需要 60 分钟阅读时间 Llama源码阅读 Llama1是由Meta设计,训练并开源的大语言模型。相比于GPT-3,Llama模型更小,但是训练更加充分,性能更强,是开源社区最受欢迎的大模型之一。 本文主要阅读Huggingface的Llama实现,重点关注相对于最早的Transformer3,Llama采用了哪些新的技术和优化。此外,这份代码也兼容Llama22的实现,具体表现在grouped query attention的实现上。 继续阅读