Commit Graph

21 Commits

Author SHA1 Message Date
ViperEkura 582d4ae9a7 refactor(data): 修改文件加载方案 2026-02-22 21:14:10 +08:00
ViperEkura 75758ead46 docs(data): 修改内存映射文件扩展名为.pt 2026-01-16 21:02:26 +08:00
ViperEkura 7dfa5cc0ac refactor(data): 重构MmapFileHandler类并改进数据加载机制 2026-01-11 19:37:28 +08:00
ViperEkura d407962ffa fix(trainer): 更新检查点保存和加载逻辑 2026-01-08 19:04:08 +08:00
ViperEkura 7623b1e5fd feat(khaosz/data/tokenizer): 优化BPE分词器的预处理和训练配置 2025-12-22 20:02:10 +08:00
ViperEkura 831933fb66 fix(mmap): 修复样本数与键值计算逻辑并增强错误处理 2025-12-15 09:27:29 +08:00
ViperEkura 701fb9bf78 refactor(data): 将内存映射文件加载逻辑移至独立的 MmapFileHander 类 2025-12-15 09:12:42 +08:00
ViperEkura a30ddca517 fix(data): 修改 Sampler 的长度计算方式, 避免提前初始化 2025-12-10 18:57:53 +08:00
ViperEkura db53cc5001 feat(tools/train): 优化训练参数传递 2025-11-30 13:49:24 +08:00
ViperEkura 3ee84b31a0 feat(data): 重构数据集加载逻辑,修复计数错误 2025-11-28 20:59:24 +08:00
ViperEkura 567c55685e docs(data/dataset): 更新 load_mmap_files 函数的文档 2025-11-28 20:27:57 +08:00
ViperEkura 1f5cba889b fix(data): 修复数据加载模块中的拼写错误并优化内存映射加载逻辑 2025-11-28 20:21:53 +08:00
ViperEkura 019bfe4e05 fix(data/sampler): 修正拼写错误并增强采样器功能 2025-11-27 19:43:36 +08:00
ViperEkura 36b410384b fix(data/sampler): 增加sampler边界情况处理 2025-11-27 19:32:40 +08:00
ViperEkura 09963a3beb refactor(data): 重构数据模块结构并优化可恢复采样器实现 2025-11-27 18:16:35 +08:00
ViperEkura e86328b753 fix(tokenizer): 修复stop_ids属性返回错误的token ID列表 2025-10-31 19:19:38 +08:00
ViperEkura 5d3799b715 refactor(data): 修改变量命名方式 2025-10-30 16:32:25 +08:00
ViperEkura 6a3135f401 fix(data_util): 修复数据集索引计算逻辑并提取通用方法 2025-10-29 20:58:33 +08:00
ViperEkura d94fc5a87a feat(data, inference): 使用chatML格式 2025-10-29 12:02:43 +08:00
ViperEkura 622982364b fix(trainer): 修复检查点加载逻辑 2025-10-18 21:45:23 +08:00
ViperEkura c51b203fde refactor(khaosz): 重构项目结构 2025-10-18 13:56:59 +08:00