AstrAI/khaosz/data
ViperEkura 75758ead46 docs(data): 修改内存映射文件扩展名为.pt 2026-01-16 21:02:26 +08:00
..
__init__.py feat(data): 重构数据集加载逻辑,修复计数错误 2025-11-28 20:59:24 +08:00
checkpoint.py fix(trainer): 更新检查点保存和加载逻辑 2026-01-08 19:04:08 +08:00
dataset.py refactor(data): 重构MmapFileHandler类并改进数据加载机制 2026-01-11 19:37:28 +08:00
mmap.py docs(data): 修改内存映射文件扩展名为.pt 2026-01-16 21:02:26 +08:00
sampler.py fix(data): 修改 Sampler 的长度计算方式, 避免提前初始化 2025-12-10 18:57:53 +08:00
tokenizer.py feat(khaosz/data/tokenizer): 优化BPE分词器的预处理和训练配置 2025-12-22 20:02:10 +08:00