ViperEkura
|
0f518473af
|
fix: 修复强化学习算法问题
|
2026-03-19 22:23:51 +08:00 |
ViperEkura
|
a5574f92e2
|
feat: 初步实现grpo 算法逻辑
|
2026-03-19 20:56:53 +08:00 |
ViperEkura
|
493fe4e84b
|
feat: 增加 label smothing
|
2026-03-06 11:41:14 +08:00 |
ViperEkura
|
c86e573195
|
feat(trainer): 改进模型输入和损失计算中的数据类型精度
|
2025-12-08 14:10:08 +08:00 |
ViperEkura
|
c98b175cd5
|
refactor(trainer): 优化trainer 结构
|
2025-12-07 21:23:05 +08:00 |
ViperEkura
|
d94fc5a87a
|
feat(data, inference): 使用chatML格式
|
2025-10-29 12:02:43 +08:00 |
ViperEkura
|
b67bc9865d
|
refactor(trainer): 重构学习率调度器实现并分离配置与工厂逻辑
|
2025-10-18 16:42:37 +08:00 |
ViperEkura
|
4ffa7454f2
|
feat(strategy): 支持模型输入可调用对象并优化损失计算
|
2025-10-06 17:08:56 +08:00 |
ViperEkura
|
fc98d9b7e6
|
refactor(khaosz/trainer): 移除未使用的导入模块
|
2025-10-04 21:45:53 +08:00 |
ViperEkura
|
2ccd7bd583
|
refactor(khaosz/trainer): 重构训练器模块结构以提升可维护性
|
2025-10-04 21:31:15 +08:00 |
ViperEkura
|
465a1a9373
|
refactor(khaosz/tainer): 修改设备参数传递发生阶段
|
2025-10-04 12:12:21 +08:00 |
ViperEkura
|
315ce1990a
|
feat(khaosz/trainer): 优化训练器回调机制与数据采样逻辑
|
2025-09-30 16:33:18 +08:00 |
ViperEkura
|
6d5176a11c
|
feat(khaosz/trainer): 改进调度器配置验证和加载逻辑
|
2025-09-29 17:17:45 +08:00 |
ViperEkura
|
1c9063fd3d
|
refactor(trainer): 统一参数命名以提升可读性
|
2025-09-28 22:14:24 +08:00 |
ViperEkura
|
fa43ed2943
|
feat(trainer): 重构训练配置与策略工厂引入
|
2025-09-28 21:39:48 +08:00 |
ViperEkura
|
1169cfad82
|
fix(trainer): 修复多轮对话中的因果注意力掩码计算逻辑等
|
2025-09-28 15:15:19 +08:00 |
ViperEkura
|
4fcdc87c95
|
feat(trainer): 重构数据集与策略模块以支持字典形式的数据返回
|
2025-09-27 14:11:27 +08:00 |
ViperEkura
|
053f4a4dad
|
feat( StrategyFactory): 添加 SFT 策略初始化参数并完善工厂方法调用
|
2025-09-27 13:24:16 +08:00 |
ViperEkura
|
676fdd59d7
|
feat(strategy): 重构mask构建逻辑并优化策略工厂参数传递
|
2025-09-27 13:12:57 +08:00 |
ViperEkura
|
a4443765ee
|
Initial commit
|
2025-09-27 12:02:22 +08:00 |