• 扩散模型推理优化

    1. DDPM1.1. 前向扩散过程给定真实数据样本 ,DDPM 定义一个固定的、参数化的马尔可夫链,在 步内将数据逐渐转化为标准高斯噪声: 其中: 是预设的小方差(通常随 缓慢增大) 整个前向过程的联合分布为: 定义累积量: 则可以...
  • FlashAttention算子优化

    1. 技术背景注意力机制是现代深度学习的核心组件之一,特别是Transformer架构的成功,使注意力机制成为自然语言处理、计算机视觉和多模态领域的基础算子。然而,标准的注意力计算存在显著的计算瓶颈和内存访问问题,限制了模型规模和训练效率。 常见的缩...
  • 关于llama架构的分析

    1. 整体架构概览Llama 3采用了经典的纯解码器Transformer架构,整体设计围绕自回归语言生成任务进行深度优化。模型核心由词嵌入层、多个堆叠的Transformer块以及输出层构成,每个Transformer块内部包含多头注意力机制和前馈...
  • 关于我训练了1B大小的LLM这件事

    1. 为什么我要做这个项目?现在市面上有很多大模型,比如GPT、LLaMA这些,动不动就是几十亿甚至上千亿参数。但说实话,这些模型对硬件要求太高了,普通开发者根本玩不起。我就想:能不能做一个既好用又能在普通电脑上跑起来的模型呢? 这其实也是目前大部...