Commit Graph

114 Commits

Author SHA1 Message Date
ViperEkura 582d4ae9a7 refactor(data): 修改文件加载方案 2026-02-22 21:14:10 +08:00
ViperEkura 99ef8fda71 feat(inference): 增加cuda_graph 装饰器 2026-02-07 21:14:39 +08:00
ViperEkura dbd57e30e5 feat(inference): 增加cuda graph 设置 2026-02-07 15:42:41 +08:00
ViperEkura a5869d89ba feat(trainer): 增加state_dict 存储设定 2026-02-04 19:47:21 +08:00
ViperEkura 75758ead46 docs(data): 修改内存映射文件扩展名为.pt 2026-01-16 21:02:26 +08:00
ViperEkura 7dfa5cc0ac refactor(data): 重构MmapFileHandler类并改进数据加载机制 2026-01-11 19:37:28 +08:00
ViperEkura ff5c8a71f5 fix(trainer): 修复回调函数合并逻辑 2026-01-08 21:56:44 +08:00
ViperEkura d407962ffa fix(trainer): 更新检查点保存和加载逻辑 2026-01-08 19:04:08 +08:00
ViperEkura 3d8047fa1b feat(trainer): 重构检查点系统支持分布式训练 2026-01-08 15:01:19 +08:00
ViperEkura d21682f97a fix(trainer): 修复检查点回调参数顺序和权重保存选项 2026-01-05 17:08:09 +08:00
ViperEkura eba99e1f5e feat(model): 添加QK归一化和门控注意力支持 2026-01-05 16:14:44 +08:00
ViperEkura fd7ee2895a refactor(paralell): 优化并行设备指定方法 2025-12-26 20:54:33 +08:00
ViperEkura cfa3cf7daa feat(train): 支持分布式训练的优化器与调度器工厂配置 2025-12-22 20:41:03 +08:00
ViperEkura 7623b1e5fd feat(khaosz/data/tokenizer): 优化BPE分词器的预处理和训练配置 2025-12-22 20:02:10 +08:00
ViperEkura 573f041c51 feat(trainer): 支持分布式训练配置与检查点加载优化 2025-12-19 19:34:39 +08:00
ViperEkura eab7a51bb6 feat(parallel): 改进设备策略注册表与并行设置功能 2025-12-19 15:25:31 +08:00
ViperEkura 3ac38a7ebc feat(parallel/device): 引入设备策略注册机制以支持多种后端 2025-12-15 13:58:59 +08:00
ViperEkura 831933fb66 fix(mmap): 修复样本数与键值计算逻辑并增强错误处理 2025-12-15 09:27:29 +08:00
ViperEkura 701fb9bf78 refactor(data): 将内存映射文件加载逻辑移至独立的 MmapFileHander 类 2025-12-15 09:12:42 +08:00
ViperEkura d882f65579 refactor(parallel): 重构parallel模块 2025-12-13 22:16:17 +08:00
ViperEkura a30ddca517 fix(data): 修改 Sampler 的长度计算方式, 避免提前初始化 2025-12-10 18:57:53 +08:00
ViperEkura 110efd2a21 fix(trainer): 修复训练上下文构建逻辑并修正拼写错误 2025-12-10 15:02:39 +08:00
ViperEkura 530fb50352 feat(parallel): 重构并重命名并行工具函数以提升灵活性 2025-12-10 14:43:35 +08:00
ViperEkura c86e573195 feat(trainer): 改进模型输入和损失计算中的数据类型精度 2025-12-08 14:10:08 +08:00
ViperEkura c934210066 fix(trainer): 修复参数传递问题和检查点保存问题 2025-12-08 13:28:11 +08:00
ViperEkura c98b175cd5 refactor(trainer): 优化trainer 结构 2025-12-07 21:23:05 +08:00
ViperEkura d52685facd feat(paralell): 添加分布式训练配置与并行工具支持 2025-12-05 13:52:17 +08:00
ViperEkura d31137a2db feat(config): 重构模型参数状态加载 2025-12-04 20:23:23 +08:00
ViperEkura 6270415590 feat(khaosz/parallel): 添加对多种设备后端的支持并优化并行初始化逻辑 2025-12-03 17:24:32 +08:00
ViperEkura 8b20982933 refactor(parallel): 重命名并重新组织并行模块文件结构 2025-11-30 17:56:47 +08:00
ViperEkura d5cc9f065d feat(khaosz/parallel): 添加并行训练设置功能 2025-11-30 16:44:04 +08:00
ViperEkura db53cc5001 feat(tools/train): 优化训练参数传递 2025-11-30 13:49:24 +08:00
ViperEkura 3ee84b31a0 feat(data): 重构数据集加载逻辑,修复计数错误 2025-11-28 20:59:24 +08:00
ViperEkura 567c55685e docs(data/dataset): 更新 load_mmap_files 函数的文档 2025-11-28 20:27:57 +08:00
ViperEkura 1f5cba889b fix(data): 修复数据加载模块中的拼写错误并优化内存映射加载逻辑 2025-11-28 20:21:53 +08:00
ViperEkura 019bfe4e05 fix(data/sampler): 修正拼写错误并增强采样器功能 2025-11-27 19:43:36 +08:00
ViperEkura 36b410384b fix(data/sampler): 增加sampler边界情况处理 2025-11-27 19:32:40 +08:00
ViperEkura 09963a3beb refactor(data): 重构数据模块结构并优化可恢复采样器实现 2025-11-27 18:16:35 +08:00
ViperEkura 5daf63a7a4 fix(model): 修复加载状态字典时的键存在性检查 2025-11-25 21:03:10 +08:00
ViperEkura fb85aaf6a6 fix(parallel): 修改列并行线性层结果聚合方式 2025-11-21 13:37:08 +08:00
ViperEkura 6fb6a15e81 feat(model): 添加并行线性层模型支持 2025-11-21 12:54:59 +08:00
ViperEkura d9ff662e3a fix(model): 调整 KV Cache 的维度顺序以匹配新的索引逻辑 2025-11-19 18:26:15 +08:00
ViperEkura e12ed0a72b fix(khaosz): 为其他模组添加init文件 2025-11-19 18:25:51 +08:00
ViperEkura 1c3a693d79 feat(model): 优化RMSNorm实现方式 2025-11-15 13:54:04 +08:00
ViperEkura 7a21f5d72e build(setup): 更新版本号并调整 Python 版本要求 2025-11-09 16:40:20 +08:00
ViperEkura 6f3386f02c fix(transformer): 优化state_dict 处理逻辑, 优化attention_mask的处理方式 2025-11-09 16:25:17 +08:00
ViperEkura d25202a329 feat(model): 实现旋转位置编码缓存动态扩展 2025-11-09 14:35:29 +08:00
ViperEkura 254ec934be feat(transformer): 简化权重绑定逻辑并增加测试单元 2025-11-07 15:14:54 +08:00
ViperEkura 7e5ecf3b7d refactor(config): 重命名 TransformerConfig 为 ModelConfig 2025-11-07 07:31:12 +08:00
ViperEkura 66a551217e refactor(generator): 优化生成逻辑 2025-11-07 07:24:00 +08:00