Commit Graph

20 Commits

Author SHA1 Message Date
ViperEkura 0e7fc623b4 fix: 修复部分已知问题 2026-03-30 21:42:00 +08:00
ViperEkura abcedf892e feat: 增加 MLA 模块 2026-03-18 16:41:46 +08:00
ViperEkura eba99e1f5e feat(model): 添加QK归一化和门控注意力支持 2026-01-05 16:14:44 +08:00
ViperEkura 8b20982933 refactor(parallel): 重命名并重新组织并行模块文件结构 2025-11-30 17:56:47 +08:00
ViperEkura 5daf63a7a4 fix(model): 修复加载状态字典时的键存在性检查 2025-11-25 21:03:10 +08:00
ViperEkura fb85aaf6a6 fix(parallel): 修改列并行线性层结果聚合方式 2025-11-21 13:37:08 +08:00
ViperEkura 6fb6a15e81 feat(model): 添加并行线性层模型支持 2025-11-21 12:54:59 +08:00
ViperEkura d9ff662e3a fix(model): 调整 KV Cache 的维度顺序以匹配新的索引逻辑 2025-11-19 18:26:15 +08:00
ViperEkura 1c3a693d79 feat(model): 优化RMSNorm实现方式 2025-11-15 13:54:04 +08:00
ViperEkura 6f3386f02c fix(transformer): 优化state_dict 处理逻辑, 优化attention_mask的处理方式 2025-11-09 16:25:17 +08:00
ViperEkura d25202a329 feat(model): 实现旋转位置编码缓存动态扩展 2025-11-09 14:35:29 +08:00
ViperEkura 254ec934be feat(transformer): 简化权重绑定逻辑并增加测试单元 2025-11-07 15:14:54 +08:00
ViperEkura 7e5ecf3b7d refactor(config): 重命名 TransformerConfig 为 ModelConfig 2025-11-07 07:31:12 +08:00
ViperEkura bdc3f4dc63 feat(module): 重构旋转位置编码实现以提升性能和可读性 2025-11-06 17:52:47 +08:00
ViperEkura 805773c7fe docs(transformer): 更新process_attention_mask函数文档 2025-11-05 23:41:11 +08:00
ViperEkura 7ccc4ab9ac fix(model): 修复加载状态字典时的权重共享问题 2025-11-05 23:38:45 +08:00
ViperEkura 69d9374f51 feat(model): 添加 tie_weight 配置选项并优化模型模块实现 2025-11-05 23:26:57 +08:00
ViperEkura 144b9598ad feat(model): 添加 Linear 和 Embedding 模块的自定义参数初始化支持 2025-10-31 22:43:12 +08:00
ViperEkura 38b2725cd1 feat(KVCacheManager): 优化KV缓存结构为元组形式以提升性能 2025-10-29 12:01:28 +08:00
ViperEkura c51b203fde refactor(khaosz): 重构项目结构 2025-10-18 13:56:59 +08:00