ViperEkura's Blog

Keep writing and Keep loving.｜

扩散模型推理优化

1. DDPM1.1. 前向扩散过程给定真实数据样本，DDPM 定义一个固定的、参数化的马尔可夫链，在步内将数据逐渐转化为标准高斯噪声：其中：是预设的小方差（通常随缓慢增大）整个前向过程的联合分布为：定义累积量：则可以...
2026-02-24 20:33:17
ai-infra

diffuser
Read more
FlashAttention算子优化

1. 技术背景注意力机制是现代深度学习的核心组件之一，特别是Transformer架构的成功，使注意力机制成为自然语言处理、计算机视觉和多模态领域的基础算子。然而，标准的注意力计算存在显著的计算瓶颈和内存访问问题，限制了模型规模和训练效率。常见的缩...
2026-02-22 20:01:04
HPC

CUDA
Read more
关于llama架构的分析

1. 整体架构概览Llama 3采用了经典的纯解码器Transformer架构，整体设计围绕自回归语言生成任务进行深度优化。模型核心由词嵌入层、多个堆叠的Transformer块以及输出层构成，每个Transformer块内部包含多头注意力机制和前馈...
2026-01-07 20:18:11
llm

transformer
Read more
关于我训练了1B大小的LLM这件事

1. 为什么我要做这个项目？现在市面上有很多大模型，比如GPT、LLaMA这些，动不动就是几十亿甚至上千亿参数。但说实话，这些模型对硬件要求太高了，普通开发者根本玩不起。我就想：能不能做一个既好用又能在普通电脑上跑起来的模型呢？这其实也是目前大部...
2026-01-17 19:07:10
llm

ai-infra
Read more

扩散模型推理优化

FlashAttention算子优化

关于llama架构的分析

关于我训练了1B大小的LLM这件事