AstrAI/khaosz/data
ViperEkura 831933fb66 fix(mmap): 修复样本数与键值计算逻辑并增强错误处理 2025-12-15 09:27:29 +08:00
..
__init__.py feat(data): 重构数据集加载逻辑,修复计数错误 2025-11-28 20:59:24 +08:00
dataset.py refactor(data): 将内存映射文件加载逻辑移至独立的 MmapFileHander 类 2025-12-15 09:12:42 +08:00
mmap.py fix(mmap): 修复样本数与键值计算逻辑并增强错误处理 2025-12-15 09:27:29 +08:00
sampler.py fix(data): 修改 Sampler 的长度计算方式, 避免提前初始化 2025-12-10 18:57:53 +08:00
tokenizer.py fix(tokenizer): 修复stop_ids属性返回错误的token ID列表 2025-10-31 19:19:38 +08:00