feat: 增加 label smoothing 设置

2026-03-13 22:37:27 +08:00 · 2026-03-13 22:37:27 +08:00 · e35cb0d84a
parent 6d6ef6dbb6
commit e35cb0d84a
1 changed files with 3 additions and 12 deletions
--- a/tools/train.py
+++ b/tools/train.py
@ -5,7 +5,6 @@ import torch.nn as nn
 import torch.optim as optim
 from torch.nn.parallel import DistributedDataParallel as DDP
 from typing import List, Optional
 from functools import partial
 from khaosz.data import DatasetLoader
 from khaosz.config import ModelParameter, TrainConfig, CosineScheduleConfig
@ -14,14 +13,6 @@ from khaosz.parallel import get_rank
 def parse_args() -> argparse.Namespace:
    def parse_device_ids(s: Optional[str]) -> Optional[List[int]]:
        if s is None or s.strip() == "":
            return None
        try:
            return [int(x.strip()) for x in s.split(",") if x.strip()]
        except ValueError as e:
            raise argparse.ArgumentTypeError(f"Invalid device_ids format: {s}. Expected comma-separated integers like '0,1,2'.")
    parser = argparse.ArgumentParser(description="Train the Transformer model.")
@ -44,6 +35,7 @@ def parse_args() -> argparse.Namespace:
    parser.add_argument("--window_size", type=int, default=None, help="the max length of the input sequence.")
    parser.add_argument("--stride", type=int, default=None, help="the step size of the input sequence.")
    parser.add_argument("--dpo_beta", type=float, default=0.1, help="DPO beta value.")
    parser.add_argument("--label_smoothing", type=int, default=0.1, help="cross_entropy function label smoothing parameter")
    parser.add_argument("--checkpoint_interval", type=int, default=5000, help="Number of iters between checkpoints.")
    parser.add_argument("--checkpoint_dir", type=str, default="checkpoint", help="Directory to save checkpoints.")
@ -51,7 +43,6 @@ def parse_args() -> argparse.Namespace:
    parser.add_argument("--start_batch", type=int, default=0, help="Start batch for training.")
    parser.add_argument("--nprocs", type=int, default=1, help="Number of GPUs to use.")
    parser.add_argument("--device_ids", type=parse_device_ids, default=None, help="Device IDs to use.")
    parser.add_argument("--device_type", type=str, default="cuda", help="Device type to use.")
    args = parser.parse_args()
@ -101,13 +92,13 @@ def train(
    adamw_beta2: float,
    adamw_weight_decay: float,
    max_grad_norm: float,
    label_smoothing: float,
    random_seed: int,
    num_workers: int,
    pin_memory: bool,
    window_size: int,
    stride: int,
    nprocs: int,
    device_ids: List[int],
    device_type: str,
 ):
    assert train_type in ["seq", "sft", "dpo"]
@ -126,6 +117,7 @@ def train(
        "bos_token_id": parameter.tokenizer.bos_id,
        "eos_token_id": parameter.tokenizer.eos_id,
        "pad_token_id": parameter.tokenizer.pad_id,
        "label_smoothing": label_smoothing
    }
    dataset = DatasetLoader.load(
@ -165,7 +157,6 @@ def train(
        nprocs=nprocs,
        parallel_wrapper=ddp_wrap,
        state_dict_fn=prepare_checkpoint,
        device_ids=device_ids,
        device_type=device_type,
        extra_kwargs=kwargs,
    )