feat(tests): 重构测试环境, 便于pickle 序列化

2025-10-04 21:31:39 +08:00 · 2025-10-04 21:31:39 +08:00 · 9d5aa952e0
parent 2ccd7bd583
commit 9d5aa952e0
3 changed files with 67 additions and 61 deletions
--- a/tests/conftest.py
+++ b/tests/conftest.py
@ -15,6 +15,66 @@ from khaosz.trainer.data_util import *

 matplotlib.use("Agg")

+
+class RandomDataset(Dataset):
+    def __init__(self, length=None, max_length=64, vocab_size=1000):
+        self.length = length or int(np.random.randint(100, 200))
+        self.max_length = max_length
+        self.vocab_size = vocab_size
+        
+    def __len__(self):
+        return self.length
+        
+    def __getitem__(self, idx):
+        return {
+            "input_ids": torch.randint(0, self.vocab_size, (self.max_length,)),
+            "target_ids": torch.randint(0, self.vocab_size, (self.max_length,))
+        }
+
+
+class MultiTurnDataset(Dataset):
+    def __init__(self, length=None, max_length=64, vocab_size=1000):
+        self.length = length or int(np.random.randint(100, 200))
+        self.max_length = max_length
+        self.vocab_size = vocab_size
+        
+    def __len__(self):
+        return self.length
+        
+    def __getitem__(self, idx):
+        input_ids = torch.randint(0, self.vocab_size, (self.max_length,))
+        target_ids = torch.randint(0, self.vocab_size, (self.max_length,))
+        loss_mask = build_loss_mask(input_ids, 0, 1)
+        attn_mask = build_attention_mask(input_ids, 2, True)
+
+        return {
+            "input_ids": input_ids,
+            "target_ids": target_ids,
+            "loss_mask": loss_mask,
+            "attn_mask": attn_mask,
+        }
+
+
+class EarlyStoppingDataset(Dataset):
+    def __init__(self, length=10, stop_after=5):
+        self.length = length
+        self.stop_after = stop_after
+        self.count = 0
+        
+    def __len__(self):
+        return self.length
+        
+    def __getitem__(self, idx):
+        self.count += 1
+        if self.count == self.stop_after:
+            raise RuntimeError("Simulated early stopping")
+        
+        return {
+            "input_ids": torch.randint(0, 1000, (64,)),
+            "target_ids": torch.randint(0, 1000, (64,))
+        }
+
+
@pytest.fixture
 def base_test_env(request: pytest.FixtureRequest):
    func_name = request.function.__name__
@ -60,49 +120,15 @@ def base_test_env(request: pytest.FixtureRequest):

@pytest.fixture
 def random_dataset():
-    class RandomDataset(Dataset):
-        def __init__(self, length=None, max_length=64, vocab_size=1000):
-            self.length = length or int(np.random.randint(100, 200))
-            self.max_length = max_length
-            self.vocab_size = vocab_size
-            
-        def __len__(self):
-            return self.length
-            
-        def __getitem__(self, idx):
-            return {
-                "input_ids": torch.randint(0, self.vocab_size, (self.max_length,)),
-                "target_ids": torch.randint(0, self.vocab_size, (self.max_length,))
-            }
-    
    dataset = RandomDataset()
-    
    yield dataset

@pytest.fixture
 def multi_turn_dataset():
-    class MultiTurnDataset(Dataset):
-        def __init__(self, length=None, max_length=64, vocab_size=1000):
-            self.length = length or int(np.random.randint(100, 200))
-            self.max_length = max_length
-            self.vocab_size = vocab_size
-            
-        def __len__(self):
-            return self.length
-            
-        def __getitem__(self, idx):
-            input_ids = torch.randint(0, self.vocab_size, (self.max_length,))
-            target_ids = torch.randint(0, self.vocab_size, (self.max_length,))
-            loss_mask = build_loss_mask(input_ids, 0, 1)
-            attn_mask = build_attention_mask(input_ids, 2, True)
-
-            return {
-                "input_ids": input_ids,
-                "target_ids": target_ids,
-                "loss_mask": loss_mask,
-                "attn_mask": attn_mask,
-            }
-    
    dataset = MultiTurnDataset()
-    
+    yield dataset
+    
+@pytest.fixture
+def early_stopping_dataset():
+    dataset = EarlyStoppingDataset()
    yield dataset
--- a/tests/test_callbacks.py
+++ b/tests/test_callbacks.py
@ -27,7 +27,7 @@ def test_callback_integration(base_test_env, random_dataset):
    # Create custom callbacks to track calls
    callback_calls = []
    
-    class TrackingCallback(TrainerCallback):
+    class TrackingCallback(TrainCallback):
        def on_train_begin(self, trainer, **kwargs):
            callback_calls.append('on_train_begin')
        
--- a/tests/test_early_stopping.py
+++ b/tests/test_early_stopping.py
@ -5,32 +5,12 @@ from khaosz.core import *
 from khaosz.trainer import *
 from khaosz.trainer.data_util import *

-def test_early_stopping_simulation(base_test_env):
+def test_early_stopping_simulation(base_test_env, early_stopping_dataset):
    """Simulate early stopping behavior"""
-    class EarlyStoppingDataset(Dataset):
-        def __init__(self, length=10, stop_after=5):
-            self.length = length
-            self.stop_after = stop_after
-            self.count = 0
-            
-        def __len__(self):
-            return self.length
-            
-        def __getitem__(self, idx):
-            self.count += 1
-            if self.count == self.stop_after:
-                raise RuntimeError("Simulated early stopping")
-            
-            return {
-                "input_ids": torch.randint(0, 1000, (64,)),
-                "target_ids": torch.randint(0, 1000, (64,))
-            }
-    
-    dataset = EarlyStoppingDataset()
    
    optimizer = torch.optim.AdamW(base_test_env["model"].parameters())
    train_config = TrainConfig(
-        dataset=dataset,
+        dataset=early_stopping_dataset,
        optimizer=optimizer,
        checkpoint_dir=base_test_env["test_dir"],
        n_epoch=2,