-
关于llama架构的分析
1. 整体架构概览Llama 3采用了经典的纯解码器Transformer架构,整体设计围绕自回归语言生成任务进行深度优化。模型核心由词嵌入层、多个堆叠的Transformer块以及输出层构成,每个Transformer块内部包含多头注意力机制和前馈... -
关于我训练了1B大小的LLM这件事
1. 为什么我要做这个项目?现在市面上有很多大模型,比如GPT、LLaMA这些,动不动就是几十亿甚至上千亿参数。但说实话,这些模型对硬件要求太高了,普通开发者根本玩不起。我就想:能不能做一个既好用又能在普通电脑上跑起来的模型呢? 这其实也是目前大部...
Keep writing and Keep loving.|