ViperEkura's Blog

Keep writing and Keep loving.｜

梯度下降算步长选择

1. 梯度下降更新规则梯度下降的基本更新公式：其中： - ：模型参数 - ：损失函数 - ：梯度（一阶导数） - ：学习率（步长）为简化记号，令，则更新规则变为： 2. 用中值定理表示损失函数的变化多变量中值定理：存在位于与 ...
2026-05-05 00:53:34
deep-learning

math
Read more
Gitea配置与Nginx反向代理

概述成功部署 Gitea 并使用国内镜像源，配置 Nginx 反向代理使 Gitea 在子路径 /gitea 下可用。环境操作系统：Ubuntu 22.04.5 LTS Docker 版本：29.3.1 Docker Compose 插件版本...
2026-04-03 16:14:59
linux

docker

gitea

nginx

reverse-proxy
Read more
Astrbot与NapCat部署指南

本文档提供 AstrBot（聊天机器人框架）与 NapCat（QQ 协议端）的完整部署流程，适用于通过 Docker Compose 在 Linux 服务器上部署，并通过 Nginx 反向代理将 WebUI 暴露在子路径 /bot/ 下。 1. 概述...
2026-04-06 21:02:02
llm

agent

linux

docker
Read more
LLM工具调用与流式生成

项目概览属性值项目名称 NanoClaw 技术栈 Flask + SQLAlchemy + PyJWT Python 版本 >= 3.10 核心能力多 LLM 提供商适配 / 工具调用 / 流式 SSE / 工...
2026-03-27 17:22:59
llm

agent
Read more
扩散模型推理优化

1. DDPM 1.1. 前向扩散过程给定真实数据样本，DDPM 定义一个固定的、参数化的马尔可夫链，在步内将数据逐渐转化为标准高斯噪声：其中： - 是预设的小方差（通常随缓慢增大） - 整个前向过程的联合分布为：定义累积量： ...
2026-05-05 00:53:34
ai-infra

diffuser
Read more
FlashAttention算子优化

1. 技术背景注意力机制是现代深度学习的核心组件之一，特别是Transformer架构的成功，使注意力机制成为自然语言处理、计算机视觉和多模态领域的基础算子。然而，标准的注意力计算存在显著的计算瓶颈和内存访问问题，限制了模型规模和训练效率。常见的...
2026-05-05 00:53:34
HPC

CUDA
Read more
AstrAI：一个轻量级 LLM 训练与推理框架的技术解析

引言 AstrAI 是一个完全自研的轻量级 Transformer 训练与推理框架，仅依赖 PyTorch，提供从预训练到推理服务的一站式解决方案。其 1B 参数的中英双语模型已开源在 HuggingFace。本文从模型架构、训练系统、推理引擎到分布...
2026-05-25 16:36:54
llm

ai-infra

transformer

distributed-training

paged-attention
Read more

梯度下降算步长选择

Gitea配置与Nginx反向代理

Astrbot与NapCat部署指南

LLM工具调用与流式生成

扩散模型推理优化

FlashAttention算子优化

AstrAI：一个轻量级 LLM 训练与推理框架的技术解析