ViperEkura
|
254ec934be
|
feat(transformer): 简化权重绑定逻辑并增加测试单元
|
2025-11-07 15:14:54 +08:00 |
ViperEkura
|
7e5ecf3b7d
|
refactor(config): 重命名 TransformerConfig 为 ModelConfig
|
2025-11-07 07:31:12 +08:00 |
ViperEkura
|
66a551217e
|
refactor(generator): 优化生成逻辑
|
2025-11-07 07:24:00 +08:00 |
ViperEkura
|
bdc3f4dc63
|
feat(module): 重构旋转位置编码实现以提升性能和可读性
|
2025-11-06 17:52:47 +08:00 |
ViperEkura
|
805773c7fe
|
docs(transformer): 更新process_attention_mask函数文档
|
2025-11-05 23:41:11 +08:00 |
ViperEkura
|
7ccc4ab9ac
|
fix(model): 修复加载状态字典时的权重共享问题
|
2025-11-05 23:38:45 +08:00 |
ViperEkura
|
69d9374f51
|
feat(model): 添加 tie_weight 配置选项并优化模型模块实现
|
2025-11-05 23:26:57 +08:00 |
ViperEkura
|
b260f5581d
|
fix(benchmark): 优化 KV 缓存初始化并更正基准测试类型标识
|
2025-11-05 15:44:29 +08:00 |
ViperEkura
|
0a754e3341
|
feat(scripts): 调整文本生成参数以提升多样性
|
2025-11-05 13:56:58 +08:00 |
ViperEkura
|
144b9598ad
|
feat(model): 添加 Linear 和 Embedding 模块的自定义参数初始化支持
|
2025-10-31 22:43:12 +08:00 |
ViperEkura
|
877669b799
|
feat(inference): 添加generate_loop方法并优化KVCacheManager初始化
|
2025-10-31 21:15:15 +08:00 |
ViperEkura
|
cdb47a62dc
|
test: 统一重构数据集和调度器测试模块
|
2025-10-31 20:24:01 +08:00 |
ViperEkura
|
e86328b753
|
fix(tokenizer): 修复stop_ids属性返回错误的token ID列表
|
2025-10-31 19:19:38 +08:00 |
ViperEkura
|
5d3799b715
|
refactor(data): 修改变量命名方式
|
2025-10-30 16:32:25 +08:00 |
ViperEkura
|
6a3135f401
|
fix(data_util): 修复数据集索引计算逻辑并提取通用方法
|
2025-10-29 20:58:33 +08:00 |
ViperEkura
|
12850d403c
|
fix(config): 修改Checkpoint类中tokenizer和config字段的默认值初始化方式
|
2025-10-29 13:24:20 +08:00 |
ViperEkura
|
bad6243b53
|
fix(train): 更新训练函数参数传递方式
|
2025-10-29 13:23:53 +08:00 |
ViperEkura
|
f2448a5147
|
feat(benchmark): 优化KV缓存初始化逻辑
|
2025-10-29 12:41:32 +08:00 |
ViperEkura
|
46b2a0f86f
|
feat(train): 添加 max_len 和 step_size 参数支持
|
2025-10-29 12:32:17 +08:00 |
ViperEkura
|
d94fc5a87a
|
feat(data, inference): 使用chatML格式
|
2025-10-29 12:02:43 +08:00 |
ViperEkura
|
38b2725cd1
|
feat(KVCacheManager): 优化KV缓存结构为元组形式以提升性能
|
2025-10-29 12:01:28 +08:00 |
ViperEkura
|
bc5ef72001
|
fix(config): 修正 SGDRScheduleConfig 类名拼写错误
|
2025-10-20 18:21:46 +08:00 |
ViperEkura
|
e051005334
|
test(test_module): 更新测试用例以使用新的generate_iterator接口
|
2025-10-20 13:52:31 +08:00 |
ViperEkura
|
0db046f8d9
|
feat(khaosz/trainer): 更新梯度裁剪回调
|
2025-10-20 13:30:26 +08:00 |
ViperEkura
|
05b012820b
|
refactor(khaosz): 重构模块导出结构并重命名主模块文件
|
2025-10-20 13:07:02 +08:00 |
ViperEkura
|
e72e244df6
|
feat(inference): 实现采样策略并优化生成器逻辑
|
2025-10-20 13:00:41 +08:00 |
ViperEkura
|
98efca7b9d
|
feat(trainer): 添加训练起始轮次和批次配置支持
|
2025-10-19 21:47:10 +08:00 |
ViperEkura
|
613edd7a14
|
test(early_stopping, train_strategy): 更新测试配置以提高稳定性
|
2025-10-18 22:07:11 +08:00 |
ViperEkura
|
622982364b
|
fix(trainer): 修复检查点加载逻辑
|
2025-10-18 21:45:23 +08:00 |
ViperEkura
|
b67bc9865d
|
refactor(trainer): 重构学习率调度器实现并分离配置与工厂逻辑
|
2025-10-18 16:42:37 +08:00 |
ViperEkura
|
c51b203fde
|
refactor(khaosz): 重构项目结构
|
2025-10-18 13:56:59 +08:00 |
ViperEkura
|
8434c19923
|
fix(khaosz/trainer): 修复数据获取中的索引范围错误和参数传递问题
|
2025-10-09 19:53:52 +08:00 |
ViperEkura
|
68a15005cb
|
feat(train.py): 支持从检查点恢复训练并优化数据加载配置
|
2025-10-07 22:02:50 +08:00 |
ViperEkura
|
efbe3de9d3
|
fix(khaosz/trainer/data_util): 修复数据集索引范围错误
|
2025-10-07 20:04:45 +08:00 |
ViperEkura
|
12793bc2d3
|
feat(khaosz/trainer): 新增梯度统计工具函数并重构训练回调机制
|
2025-10-07 13:03:32 +08:00 |
ViperEkura
|
0764cb8296
|
fix(khaosz/trainer/train_callback): 修复基类函数命名错误
|
2025-10-07 11:43:51 +08:00 |
ViperEkura
|
57cd7b921e
|
feat(khaosz/trainer): 改进训练循环中的损失归一化处理
|
2025-10-06 20:17:47 +08:00 |
ViperEkura
|
c1bf22b6ec
|
refactor(khaosz/trainer): 使用 TrainContext 替代 kwargs 传递训练上下文
|
2025-10-06 20:12:08 +08:00 |
ViperEkura
|
f9b6331ad7
|
refactor(khaosz/core/parameter): 修改参数名称
|
2025-10-06 20:11:46 +08:00 |
ViperEkura
|
183f481692
|
build(khaosz): 更新版本号至1.3.0
|
2025-10-06 17:12:12 +08:00 |
ViperEkura
|
ec0c054d26
|
test(early_stopping): 移除未使用的torch.utils.data导入
|
2025-10-06 17:10:10 +08:00 |
ViperEkura
|
4ffa7454f2
|
feat(strategy): 支持模型输入可调用对象并优化损失计算
|
2025-10-06 17:08:56 +08:00 |
ViperEkura
|
8c9e973179
|
fix(train.py): 修复数据集加载时的参数传递问题
|
2025-10-06 16:44:02 +08:00 |
ViperEkura
|
fc98d9b7e6
|
refactor(khaosz/trainer): 移除未使用的导入模块
|
2025-10-04 21:45:53 +08:00 |
ViperEkura
|
9d5aa952e0
|
feat(tests): 重构测试环境, 便于pickle 序列化
|
2025-10-04 21:31:39 +08:00 |
ViperEkura
|
2ccd7bd583
|
refactor(khaosz/trainer): 重构训练器模块结构以提升可维护性
|
2025-10-04 21:31:15 +08:00 |
ViperEkura
|
e7d29ca2d5
|
feat(tests): 改进测试环境配置与设备管理
|
2025-10-04 12:12:42 +08:00 |
ViperEkura
|
465a1a9373
|
refactor(khaosz/tainer): 修改设备参数传递发生阶段
|
2025-10-04 12:12:21 +08:00 |
ViperEkura
|
240ee00221
|
feat(khaosz/trainer): 引入 TrainContext 和 TrainContextBuilder 优化训练上下文管理
|
2025-10-03 22:42:11 +08:00 |
ViperEkura
|
6e1a497c04
|
test(sampler): 删除冗余的训练恢复测试用例
|
2025-10-03 22:18:31 +08:00 |