ViperEkura
|
6270415590
|
feat(khaosz/parallel): 添加对多种设备后端的支持并优化并行初始化逻辑
|
2025-12-03 17:24:32 +08:00 |
ViperEkura
|
8b20982933
|
refactor(parallel): 重命名并重新组织并行模块文件结构
|
2025-11-30 17:56:47 +08:00 |
ViperEkura
|
d5cc9f065d
|
feat(khaosz/parallel): 添加并行训练设置功能
|
2025-11-30 16:44:04 +08:00 |
ViperEkura
|
db53cc5001
|
feat(tools/train): 优化训练参数传递
|
2025-11-30 13:49:24 +08:00 |
ViperEkura
|
3ee84b31a0
|
feat(data): 重构数据集加载逻辑,修复计数错误
|
2025-11-28 20:59:24 +08:00 |
ViperEkura
|
567c55685e
|
docs(data/dataset): 更新 load_mmap_files 函数的文档
|
2025-11-28 20:27:57 +08:00 |
ViperEkura
|
1f5cba889b
|
fix(data): 修复数据加载模块中的拼写错误并优化内存映射加载逻辑
|
2025-11-28 20:21:53 +08:00 |
ViperEkura
|
019bfe4e05
|
fix(data/sampler): 修正拼写错误并增强采样器功能
|
2025-11-27 19:43:36 +08:00 |
ViperEkura
|
36b410384b
|
fix(data/sampler): 增加sampler边界情况处理
|
2025-11-27 19:32:40 +08:00 |
ViperEkura
|
09963a3beb
|
refactor(data): 重构数据模块结构并优化可恢复采样器实现
|
2025-11-27 18:16:35 +08:00 |
ViperEkura
|
5daf63a7a4
|
fix(model): 修复加载状态字典时的键存在性检查
|
2025-11-25 21:03:10 +08:00 |
ViperEkura
|
fb85aaf6a6
|
fix(parallel): 修改列并行线性层结果聚合方式
|
2025-11-21 13:37:08 +08:00 |
ViperEkura
|
6fb6a15e81
|
feat(model): 添加并行线性层模型支持
|
2025-11-21 12:54:59 +08:00 |
ViperEkura
|
d9ff662e3a
|
fix(model): 调整 KV Cache 的维度顺序以匹配新的索引逻辑
|
2025-11-19 18:26:15 +08:00 |
ViperEkura
|
e12ed0a72b
|
fix(khaosz): 为其他模组添加init文件
|
2025-11-19 18:25:51 +08:00 |
ViperEkura
|
1c3a693d79
|
feat(model): 优化RMSNorm实现方式
|
2025-11-15 13:54:04 +08:00 |
ViperEkura
|
7a21f5d72e
|
build(setup): 更新版本号并调整 Python 版本要求
|
2025-11-09 16:40:20 +08:00 |
ViperEkura
|
6f3386f02c
|
fix(transformer): 优化state_dict 处理逻辑, 优化attention_mask的处理方式
|
2025-11-09 16:25:17 +08:00 |
ViperEkura
|
d25202a329
|
feat(model): 实现旋转位置编码缓存动态扩展
|
2025-11-09 14:35:29 +08:00 |
ViperEkura
|
254ec934be
|
feat(transformer): 简化权重绑定逻辑并增加测试单元
|
2025-11-07 15:14:54 +08:00 |
ViperEkura
|
7e5ecf3b7d
|
refactor(config): 重命名 TransformerConfig 为 ModelConfig
|
2025-11-07 07:31:12 +08:00 |
ViperEkura
|
66a551217e
|
refactor(generator): 优化生成逻辑
|
2025-11-07 07:24:00 +08:00 |
ViperEkura
|
bdc3f4dc63
|
feat(module): 重构旋转位置编码实现以提升性能和可读性
|
2025-11-06 17:52:47 +08:00 |
ViperEkura
|
805773c7fe
|
docs(transformer): 更新process_attention_mask函数文档
|
2025-11-05 23:41:11 +08:00 |
ViperEkura
|
7ccc4ab9ac
|
fix(model): 修复加载状态字典时的权重共享问题
|
2025-11-05 23:38:45 +08:00 |
ViperEkura
|
69d9374f51
|
feat(model): 添加 tie_weight 配置选项并优化模型模块实现
|
2025-11-05 23:26:57 +08:00 |
ViperEkura
|
144b9598ad
|
feat(model): 添加 Linear 和 Embedding 模块的自定义参数初始化支持
|
2025-10-31 22:43:12 +08:00 |
ViperEkura
|
877669b799
|
feat(inference): 添加generate_loop方法并优化KVCacheManager初始化
|
2025-10-31 21:15:15 +08:00 |
ViperEkura
|
e86328b753
|
fix(tokenizer): 修复stop_ids属性返回错误的token ID列表
|
2025-10-31 19:19:38 +08:00 |
ViperEkura
|
5d3799b715
|
refactor(data): 修改变量命名方式
|
2025-10-30 16:32:25 +08:00 |
ViperEkura
|
6a3135f401
|
fix(data_util): 修复数据集索引计算逻辑并提取通用方法
|
2025-10-29 20:58:33 +08:00 |
ViperEkura
|
12850d403c
|
fix(config): 修改Checkpoint类中tokenizer和config字段的默认值初始化方式
|
2025-10-29 13:24:20 +08:00 |
ViperEkura
|
d94fc5a87a
|
feat(data, inference): 使用chatML格式
|
2025-10-29 12:02:43 +08:00 |
ViperEkura
|
38b2725cd1
|
feat(KVCacheManager): 优化KV缓存结构为元组形式以提升性能
|
2025-10-29 12:01:28 +08:00 |
ViperEkura
|
bc5ef72001
|
fix(config): 修正 SGDRScheduleConfig 类名拼写错误
|
2025-10-20 18:21:46 +08:00 |
ViperEkura
|
0db046f8d9
|
feat(khaosz/trainer): 更新梯度裁剪回调
|
2025-10-20 13:30:26 +08:00 |
ViperEkura
|
05b012820b
|
refactor(khaosz): 重构模块导出结构并重命名主模块文件
|
2025-10-20 13:07:02 +08:00 |
ViperEkura
|
e72e244df6
|
feat(inference): 实现采样策略并优化生成器逻辑
|
2025-10-20 13:00:41 +08:00 |
ViperEkura
|
98efca7b9d
|
feat(trainer): 添加训练起始轮次和批次配置支持
|
2025-10-19 21:47:10 +08:00 |
ViperEkura
|
622982364b
|
fix(trainer): 修复检查点加载逻辑
|
2025-10-18 21:45:23 +08:00 |
ViperEkura
|
b67bc9865d
|
refactor(trainer): 重构学习率调度器实现并分离配置与工厂逻辑
|
2025-10-18 16:42:37 +08:00 |
ViperEkura
|
c51b203fde
|
refactor(khaosz): 重构项目结构
|
2025-10-18 13:56:59 +08:00 |
ViperEkura
|
8434c19923
|
fix(khaosz/trainer): 修复数据获取中的索引范围错误和参数传递问题
|
2025-10-09 19:53:52 +08:00 |
ViperEkura
|
efbe3de9d3
|
fix(khaosz/trainer/data_util): 修复数据集索引范围错误
|
2025-10-07 20:04:45 +08:00 |
ViperEkura
|
12793bc2d3
|
feat(khaosz/trainer): 新增梯度统计工具函数并重构训练回调机制
|
2025-10-07 13:03:32 +08:00 |
ViperEkura
|
0764cb8296
|
fix(khaosz/trainer/train_callback): 修复基类函数命名错误
|
2025-10-07 11:43:51 +08:00 |
ViperEkura
|
57cd7b921e
|
feat(khaosz/trainer): 改进训练循环中的损失归一化处理
|
2025-10-06 20:17:47 +08:00 |
ViperEkura
|
c1bf22b6ec
|
refactor(khaosz/trainer): 使用 TrainContext 替代 kwargs 传递训练上下文
|
2025-10-06 20:12:08 +08:00 |
ViperEkura
|
f9b6331ad7
|
refactor(khaosz/core/parameter): 修改参数名称
|
2025-10-06 20:11:46 +08:00 |
ViperEkura
|
183f481692
|
build(khaosz): 更新版本号至1.3.0
|
2025-10-06 17:12:12 +08:00 |
ViperEkura
|
4ffa7454f2
|
feat(strategy): 支持模型输入可调用对象并优化损失计算
|
2025-10-06 17:08:56 +08:00 |
ViperEkura
|
fc98d9b7e6
|
refactor(khaosz/trainer): 移除未使用的导入模块
|
2025-10-04 21:45:53 +08:00 |
ViperEkura
|
2ccd7bd583
|
refactor(khaosz/trainer): 重构训练器模块结构以提升可维护性
|
2025-10-04 21:31:15 +08:00 |
ViperEkura
|
465a1a9373
|
refactor(khaosz/tainer): 修改设备参数传递发生阶段
|
2025-10-04 12:12:21 +08:00 |
ViperEkura
|
240ee00221
|
feat(khaosz/trainer): 引入 TrainContext 和 TrainContextBuilder 优化训练上下文管理
|
2025-10-03 22:42:11 +08:00 |
ViperEkura
|
9a452dd34e
|
fix(khaosz/trainer/data_util.py): 修复 RandomSampler 中迭代计数器位置错误
|
2025-10-03 22:08:28 +08:00 |
ViperEkura
|
83c08cfbb9
|
fix(trainer): 修复随机采样器迭代重置问题
|
2025-10-02 14:22:38 +08:00 |
ViperEkura
|
e43a5b9b66
|
fix(khaosz/trainer/data_util.py): 修复 build_loss_mask 函数中使用错误的输入张量
|
2025-10-02 11:55:51 +08:00 |
ViperEkura
|
753e493d6c
|
docs(khaosz/trainer): 更新回调函数的文档字符串格式
|
2025-09-30 20:55:24 +08:00 |
ViperEkura
|
5a356d66e1
|
refactor(khaosz/trainer/data_util): 重构mask函数
|
2025-09-30 20:22:12 +08:00 |
ViperEkura
|
78e5dbb3be
|
build(khaosz): 更新版本号至1.2.2
|
2025-09-30 18:04:13 +08:00 |
ViperEkura
|
288e2c3da6
|
fix(khaosz/trainer): 调整训练循环中回调调用顺序并增强异常日志记录
|
2025-09-30 17:57:55 +08:00 |
ViperEkura
|
315ce1990a
|
feat(khaosz/trainer): 优化训练器回调机制与数据采样逻辑
|
2025-09-30 16:33:18 +08:00 |
ViperEkura
|
e0e9942e4a
|
feat(khaosz/core/parameter): 添加采样器状态的保存与加载功能
|
2025-09-29 19:49:35 +08:00 |
ViperEkura
|
198c1ac55c
|
refactor(khaosz/trainer): 重构训练器模块的导入路径和文件命名
|
2025-09-29 19:35:17 +08:00 |
ViperEkura
|
e467420475
|
fix(khaosz/trainer): 修正训练步数计算逻辑
|
2025-09-29 19:05:26 +08:00 |
ViperEkura
|
6d5176a11c
|
feat(khaosz/trainer): 改进调度器配置验证和加载逻辑
|
2025-09-29 17:17:45 +08:00 |
ViperEkura
|
bdda1cc35a
|
feat(khaosz/core/tokenizer): 添加 user_id 和 system_id 属性
|
2025-09-29 13:47:37 +08:00 |
ViperEkura
|
89211c16f6
|
fix(khaosz/trainer): 将保存检查点逻辑移至CheckpointCallback
|
2025-09-29 13:38:46 +08:00 |
ViperEkura
|
648e4e177b
|
feat(khaosz/trainer): 添加SchedulerCallback功能
|
2025-09-29 13:18:44 +08:00 |
ViperEkura
|
5163d3a47a
|
fix(callback): 解决循环导入问题
|
2025-09-29 13:08:41 +08:00 |
ViperEkura
|
b2f3fefa1b
|
feat(callback): 为 TrainerCallback 及其子类添加文档字符串和未使用参数占位符
|
2025-09-29 12:48:01 +08:00 |
ViperEkura
|
e52803ddc3
|
refactor(trainer): 将回调类移至独立文件并优化训练器结构
|
2025-09-29 12:00:25 +08:00 |
ViperEkura
|
8206c7855e
|
fix(transformer): 调整注意力掩码处理逻辑
|
2025-09-29 11:31:42 +08:00 |
ViperEkura
|
816bc78894
|
feat(trainer): 引入训练器回调机制并重构训练流程
|
2025-09-29 11:31:31 +08:00 |
ViperEkura
|
92999fa9f6
|
fix(trainer): 修复训练器中配置引用错误的问题
|
2025-09-28 22:20:25 +08:00 |
ViperEkura
|
1c9063fd3d
|
refactor(trainer): 统一参数命名以提升可读性
|
2025-09-28 22:14:24 +08:00 |
ViperEkura
|
fa43ed2943
|
feat(trainer): 重构训练配置与策略工厂引入
|
2025-09-28 21:39:48 +08:00 |
ViperEkura
|
1169cfad82
|
fix(trainer): 修复多轮对话中的因果注意力掩码计算逻辑等
|
2025-09-28 15:15:19 +08:00 |
ViperEkura
|
25ec56a1f5
|
fix(trainer): 修复训练器恢复检查点时的学习率初始化问题
|
2025-09-28 14:38:02 +08:00 |
ViperEkura
|
f25a249291
|
feat(khaosz): 优化模型参数保存与加载逻辑
|
2025-09-28 14:00:21 +08:00 |
ViperEkura
|
4fcdc87c95
|
feat(trainer): 重构数据集与策略模块以支持字典形式的数据返回
|
2025-09-27 14:11:27 +08:00 |
ViperEkura
|
9fbc9481b5
|
refactor(core): 修改注意力掩码处理函数并重命名参数
|
2025-09-27 13:37:10 +08:00 |
ViperEkura
|
053f4a4dad
|
feat( StrategyFactory): 添加 SFT 策略初始化参数并完善工厂方法调用
|
2025-09-27 13:24:16 +08:00 |
ViperEkura
|
676fdd59d7
|
feat(strategy): 重构mask构建逻辑并优化策略工厂参数传递
|
2025-09-27 13:12:57 +08:00 |
ViperEkura
|
a4443765ee
|
Initial commit
|
2025-09-27 12:02:22 +08:00 |