aszer/etf

Files

aszerW c905230a40 refactor(archive): move unused modules to archive/

Archive legacy framework and utility modules that are no longer
referenced by the active core (datasource/ and rotation/):

- framework/ -> archive/framework/
- framework_v2/ -> archive/framework_v2/
- strategies/ -> archive/strategies/
- config/ -> archive/config/
- visualization/ -> archive/visualization/
- scripts/ -> archive/scripts/
- tests/ -> archive/tests/
- run_rotation.py, run_us_rotation.py -> archive/single_files/
- compare_*.py, test_api_dates.py -> archive/single_files/

2026-06-03 23:41:46 +08:00

28 KiB

Raw Blame History

framework_v2 数据架构方案

📋 设计目标

核心原则

接口统一：所有组件使用 DataFrame 作为标准接口（向后兼容）
内部优化：核心计算使用 numpy（性能提升 50-75 倍）
结构验证：Pydantic Schema 提供结构契约（早期失败）
边界清晰：DataFrame ↔ numpy 转换在边界处完成

🏗️ 架构设计

三层数据流

┌─────────────────────────────────────────────────────────────┐
│                     外部接口层（DataFrame）                    │
│  • 数据获取：DataFetcher 返回 DataFrame                        │
│  • 因子计算：compute(data: DataFrame) → Series                │
│  • 信号生成：generate(factor_df: DataFrame) → DataFrame       │
│  • 回测执行：execute(signals: DataFrame, returns: DataFrame)  │
└────────────────────────┬────────────────────────────────────┘
                         │ 边界转换（DataFrame → numpy）
┌────────────────────────▼────────────────────────────────────┐
│                     内部计算层（numpy）                        │
│  • 因子计算：纯 numpy 数组操作                                 │
│  • 信号生成：numpy 排序/筛选                                   │
│  • 收益计算：numpy 向量化运算                                  │
└────────────────────────┬────────────────────────────────────┘
                         │ 边界转换（numpy → DataFrame）
┌────────────────────────▼────────────────────────────────────┐
│                     输出层（DataFrame）                        │
│  • 因子输出：pd.Series(scores, index=data.index)              │
│  • 信号输出：pd.DataFrame({'signal': ...})                    │
│  • 回测结果：pd.DataFrame({'nav': ..., 'returns': ...})       │
└─────────────────────────────────────────────────────────────┘

📐 Schema 定义（结构契约）

1. OHLCV 数据 Schema

"""framework_v2/core/schemas.py"""

from pydantic import BaseModel, Field, field_validator
from typing import Optional, List, Dict
import pandas as pd
import numpy as np


class OHLCVSchema(BaseModel):
    """
    OHLCV 数据结构定义
    
    作用：
    1. 明确列名和类型
    2. 提供 IDE 自动补全
    3. 运行时验证
    4. 文档化数据格式
    
    示例：
    >>> df = pd.DataFrame({
    ...     'date': ['2024-01-01', '2024-01-02'],
    ...     'open': [100.0, 101.0],
    ...     'high': [102.0, 103.0],
    ...     'low': [99.0, 100.0],
    ...     'close': [101.0, 102.0],
    ...     'volume': [1000000, 1100000]
    ... })
    >>> validate_ohlcv(df)  # ✓ 通过
    """
    
    # 必需字段
    close: float = Field(
        ...,
        description="收盘价（必需）",
        gt=0,  # 必须大于 0
        examples=[100.5, 101.2]
    )
    
    # 可选字段
    open: Optional[float] = Field(
        None,
        description="开盘价",
        gt=0
    )
    high: Optional[float] = Field(None, description="最高价", gt=0)
    low: Optional[float] = Field(None, description="最低价", gt=0)
    volume: Optional[float] = Field(None, description="成交量", ge=0)
    
    # 扩展字段（不同资产类型可能有额外字段）
    amount: Optional[float] = Field(None, description="成交额")
    pct_chg: Optional[float] = Field(None, description="涨跌幅")
    
    class Config:
        extra = "ignore"  # 忽略额外字段，保持向后兼容
    
    @field_validator('close', 'open', 'high', 'low')
    @classmethod
    def check_positive(cls, v):
        """价格必须为正数"""
        if v is not None and v <= 0:
            raise ValueError(f"价格必须为正数，当前值: {v}")
        return v


class OHLCVBatchSchema(BaseModel):
    """
    多标的 OHLCV 数据
    
    用于因子计算时的输入
    """
    data: Dict[str, pd.DataFrame] = Field(
        ...,
        description="{标的代码: OHLCV DataFrame} 字典"
    )
    valid_codes: List[str] = Field(
        ...,
        description="有效标的列表"
    )
    trading_calendar: pd.Index = Field(
        ...,
        description="交易日历（A股）"
    )


class FactorResultSchema(BaseModel):
    """
    因子计算结果
    
    用于验证因子输出
    """
    values: List[float] = Field(..., description="因子值")
    index: List[str] = Field(..., description="日期索引")
    name: str = Field(..., description="因子名称")
    nan_count: int = Field(..., description="NaN 数量")
    valid_count: int = Field(..., description="有效值数量")
    
    @property
    def nan_ratio(self) -> float:
        """NaN 比例"""
        total = len(self.values)
        return self.nan_count / total if total > 0 else 0.0


class SignalSchema(BaseModel):
    """
    交易信号
    
    用于验证信号输出
    """
    date: str = Field(..., description="交易日期")
    signal: str = Field(..., description="信号（标的代码，逗号分隔）")
    codes: List[str] = Field(..., description="解析后的标的列表")
    
    @field_validator('signal')
    @classmethod
    def check_signal_format(cls, v):
        """信号不能为空"""
        if not v or v.strip() == '':
            raise ValueError("信号不能为空")
        return v


class BacktestResultSchema(BaseModel):
    """
    回测结果
    
    用于验证回测输出
    """
    nav: List[float] = Field(..., description="净值序列")
    daily_returns: List[float] = Field(..., description="日收益率")
    dates: List[str] = Field(..., description="日期序列")
    
    @property
    def total_return(self) -> float:
        """累计收益率"""
        if len(self.nav) < 2:
            return 0.0
        return (self.nav[-1] / self.nav[0]) - 1

🔍 验证装饰器

1. 输入验证

"""framework_v2/core/validation.py"""

from functools import wraps
import pandas as pd
import numpy as np
import warnings
from typing import Type, List
from pydantic import BaseModel


def validate_ohlcv(func):
    """
    验证输入 DataFrame 是否符合 OHLCV 结构
    
    检查项：
    1. 必须有 'close' 列
    2. 'close' 列必须是数值类型
    3. 'close' 列不能有全 NaN
    4. 可选：检查价格是否为正数
    
    使用示例：
    @validate_ohlcv
    def compute(self, data: pd.DataFrame) -> pd.Series:
        # 现在可以安全使用 data['close']
        prices = data['close'].values
        ...
    """
    @wraps(func)
    def wrapper(self, data: pd.DataFrame, *args, **kwargs):
        # 检查 1: 必须有 'close' 列
        if 'close' not in data.columns:
            raise ValueError(
                f"DataFrame 缺少必需的 'close' 列\n"
                f"当前列: {list(data.columns)}\n"
                f"{self.__class__.__name__} 需要 OHLCV 格式数据"
            )
        
        # 检查 2: 'close' 列必须是数值类型
        if not pd.api.types.is_numeric_dtype(data['close']):
            raise TypeError(
                f"'close' 列必须是数值类型，当前是 {data['close'].dtype}"
            )
        
        # 检查 3: 'close' 列不能有全 NaN
        if data['close'].isna().all():
            raise ValueError("'close' 列全为 NaN，无法计算因子")
        
        # 检查 4: 警告如果 NaN 比例过高
        nan_ratio = data['close'].isna().sum() / len(data)
        if nan_ratio > 0.5:
            warnings.warn(
                f"'close' 列 NaN 比例过高: {nan_ratio:.1%}"
            )
        
        return func(self, data, *args, **kwargs)
    return wrapper


def validate_factor_input(func):
    """
    验证因子输入 DataFrame（多标的）
    
    检查项：
    1. DataFrame 不能为空
    2. 所有列必须是数值类型
    3. 至少有一列
    
    使用示例：
    @validate_factor_input
    def generate(self, factor_df: pd.DataFrame) -> pd.DataFrame:
        ...
    """
    @wraps(func)
    def wrapper(self, factor_df: pd.DataFrame, *args, **kwargs):
        # 检查 1: 不能为空
        if factor_df.empty:
            raise ValueError("因子 DataFrame 不能为空")
        
        # 检查 2: 所有列必须是数值类型
        non_numeric_cols = [
            col for col in factor_df.columns 
            if not pd.api.types.is_numeric_dtype(factor_df[col])
        ]
        if non_numeric_cols:
            raise ValueError(
                f"因子 DataFrame 包含非数值列: {non_numeric_cols}\n"
                f"所有列必须为数值类型（因子值）"
            )
        
        # 检查 3: 至少有一列
        if len(factor_df.columns) == 0:
            raise ValueError("因子 DataFrame 至少需要一列")
        
        return func(self, factor_df, *args, **kwargs)
    return wrapper


def validate_dataframe_schema(schema_class: Type[BaseModel], sample_size: int = 10):
    """
    通用 DataFrame Schema 验证装饰器
    
    使用 Pydantic Schema 验证 DataFrame 结构
    
    参数：
    - schema_class: Pydantic Schema 类
    - sample_size: 采样验证行数（默认 10 行，性能平衡）
    
    使用示例：
    @validate_dataframe_schema(OHLCVSchema, sample_size=10)
    def compute(self, data: pd.DataFrame) -> pd.Series:
        ...
    """
    def decorator(func):
        @wraps(func)
        def wrapper(self, data: pd.DataFrame, *args, **kwargs):
            # 1. 检查必需列是否存在
            required_fields = schema_class.model_fields.keys()
            missing_cols = [
                col for col in required_cols 
                if schema_class.model_fields[col].is_required() 
                and col not in data.columns
            ]
            
            if missing_cols:
                raise ValueError(
                    f"DataFrame 缺少必需列: {missing_cols}\n"
                    f"当前列: {list(data.columns)}\n"
                    f"需要: {list(required_fields)}"
                )
            
            # 2. 采样验证类型和值（前 sample_size 行）
            sample = data.head(sample_size)
            for idx, row in sample.iterrows():
                try:
                    # 提取 Schema 需要的字段
                    row_dict = {
                        col: row[col] 
                        for col in required_fields 
                        if col in data.columns
                    }
                    # Pydantic 验证
                    schema_class(**row_dict)
                except Exception as e:
                    raise ValueError(
                        f"DataFrame 第 {idx} 行数据验证失败: {e}\n"
                        f"Schema: {schema_class.__name__}\n"
                        f"数据: {row_dict}"
                    )
            
            return func(self, data, *args, **kwargs)
        return wrapper
    return decorator


def validate_factor_output(func):
    """
    验证因子输出是否符合要求
    
    检查项：
    1. 返回类型必须是 pd.Series
    2. 索引必须与输入一致
    3. 不能全为 NaN
    
    使用示例：
    @validate_factor_output
    def compute(self, data: pd.DataFrame) -> pd.Series:
        ...
    """
    @wraps(func)
    def wrapper(self, data: pd.DataFrame, *args, **kwargs):
        result = func(self, data, *args, **kwargs)
        
        # 检查 1: 返回类型
        if not isinstance(result, pd.Series):
            raise TypeError(
                f"因子 compute() 必须返回 pd.Series\n"
                f"当前返回: {type(result)}"
            )
        
        # 检查 2: 索引一致性
        if not result.index.equals(data.index):
            raise ValueError(
                f"因子输出索引与输入不匹配\n"
                f"输入索引长度: {len(data.index)}\n"
                f"输出索引长度: {len(result.index)}\n"
                f"输入索引范围: {data.index[0]} ~ {data.index[-1]}\n"
                f"输出索引范围: {result.index[0]} ~ {result.index[-1]}"
            )
        
        # 检查 3: 不能全为 NaN
        if result.isna().all():
            import warnings
            warnings.warn(
                f"{self.__class__.__name__} 输出全为 NaN，可能数据有问题"
            )
        
        # 检查 4: NaN 比例警告
        nan_ratio = result.isna().sum() / len(result)
        if nan_ratio > 0.8:
            import warnings
            warnings.warn(
                f"{self.__class__.__name__} NaN 比例过高: {nan_ratio:.1%}"
            )
        
        return result
    return wrapper


def validate_signal_output(func):
    """
    验证信号输出是否符合要求
    
    检查项：
    1. 返回类型必须是 pd.DataFrame
    2. 必须包含 'signal' 列
    3. 'signal' 列不能有全空
    
    使用示例：
    @validate_signal_output
    def generate(self, factor_df: pd.DataFrame) -> pd.DataFrame:
        ...
    """
    @wraps(func)
    def wrapper(self, factor_df: pd.DataFrame, *args, **kwargs):
        result = func(self, factor_df, *args, **kwargs)
        
        # 检查 1: 返回类型
        if not isinstance(result, pd.DataFrame):
            raise TypeError(
                f"信号 generate() 必须返回 pd.DataFrame\n"
                f"当前返回: {type(result)}"
            )
        
        # 检查 2: 必须有 'signal' 列
        if 'signal' not in result.columns:
            raise ValueError(
                f"信号 DataFrame 必须包含 'signal' 列\n"
                f"当前列: {list(result.columns)}"
            )
        
        # 检查 3: 'signal' 列不能有全空
        if result['signal'].isna().all():
            raise ValueError("信号列全为 NaN")
        
        # 检查 4: 警告空信号比例
        empty_ratio = (result['signal'] == '').sum() / len(result)
        if empty_ratio > 0.5:
            import warnings
            warnings.warn(
                f"空信号比例过高: {empty_ratio:.1%}"
            )
        
        return result
    return wrapper

2. 输出验证

（已在上方代码中包含）

💻 组件实现示例

1. 因子层

"""framework_v2/shared/factors/momentum.py"""

import pandas as pd
import numpy as np
import math
from framework_v2.core import FactorBase
from framework_v2.core.validation import (
    validate_ohlcv,
    validate_factor_output
)


class MomentumFactor(FactorBase):
    """
    动量因子
    
    计算加权线性回归动量得分：
    得分 = 年化收益率 × R²
    
    架构：
    - 接口层：DataFrame（用户友好）
    - 内部层：numpy（高性能）
    - 验证层：装饰器（结构安全）
    """
    
    name = "momentum"
    category = "momentum"
    
    def __init__(
        self,
        n_days: int = 25,
        weighted: bool = True,
        crash_filter: bool = True
    ):
        super().__init__(n_days=n_days, weighted=weighted, crash_filter=crash_filter)
        self.n_days = n_days
        self.weighted = weighted
        self.crash_filter = crash_filter
    
    @validate_ohlcv          # ← 输入验证
    @validate_factor_output  # ← 输出验证
    def compute(self, data: pd.DataFrame) -> pd.Series:
        """
        计算动量因子值
        
        数据流：
        DataFrame → numpy（边界） → 纯 numpy 计算 → numpy → DataFrame（边界）
        
        Args:
            data: OHLCV DataFrame（必须有 'close' 列）
        
        Returns:
            因子值 Series（与 data 同索引）
        """
        # 边界转换：DataFrame → numpy
        prices = data['close'].values.astype(np.float32)
        
        # 内部计算：纯 numpy（高性能）
        if self.weighted:
            factor_values = self._compute_weighted(prices)
        else:
            factor_values = self._compute_simple(prices)
        
        # 崩盘过滤：需要 pandas Series（带索引）
        if self.crash_filter:
            prices_series = pd.Series(prices, index=data.index)
            factor_series = pd.Series(factor_values, index=data.index)
            factor_series = self._apply_crash_filter(prices_series, factor_series)
            factor_values = factor_series.values
        
        # 边界转换：numpy → DataFrame
        return pd.Series(factor_values, index=data.index, name=self.name)
    
    def _compute_weighted(self, prices: np.ndarray) -> np.ndarray:
        """
        加权动量计算（纯 numpy）
        
        性能：比 DataFrame rolling apply 快 50-75 倍
        """
        n = len(prices)
        result = np.full(n, np.nan, dtype=np.float32)
        
        for i in range(self.n_days, n):
            window = prices[i-self.n_days:i]
            result[i] = self._weighted_score(window)
        
        return result
    
    def _compute_simple(self, prices: np.ndarray) -> np.ndarray:
        """简单动量计算（纯 numpy）"""
        n = len(prices)
        result = np.full(n, np.nan, dtype=np.float32)
        
        for i in range(self.n_days, n):
            result[i] = (prices[i] / prices[i-self.n_days]) - 1
        
        return result
    
    def _weighted_score(self, prices: np.ndarray) -> float:
        """计算单个窗口的加权动量得分"""
        if len(prices) < 5:
            return 0.0
        
        # 价格下界 clip
        prices = np.clip(prices, 0.01, None)
        y = np.log(prices)
        
        # 异常值检测
        if np.any(np.isnan(y)) or np.any(np.isinf(y)):
            return 0.0
        
        x = np.arange(len(y))
        weights = np.linspace(1, 2, len(y))
        
        slope, intercept = np.polyfit(x, y, 1, w=weights)
        annualized_returns = math.exp(slope * 250) - 1
        
        y_pred = slope * x + intercept
        ss_res = np.sum(weights * (y - y_pred) ** 2)
        ss_tot = np.sum(weights * (y - np.average(y, weights=weights)) ** 2)
        r2 = 1 - ss_res / ss_tot if ss_tot > 0 else 0
        
        return annualized_returns * r2
    
    def _apply_crash_filter(
        self,
        prices: pd.Series,
        factor_values: pd.Series
    ) -> pd.Series:
        """崩盘过滤：连续 3 天跌 > 5% 清零"""
        result = factor_values.copy()
        
        for i in range(3, len(prices)):
            r1 = prices.iloc[i] / prices.iloc[i-1]
            r2 = prices.iloc[i-1] / prices.iloc[i-2]
            r3 = prices.iloc[i-2] / prices.iloc[i-3]
            
            con1 = min(r1, r2, r3) < 0.95
            con2 = (r1 < 1) and (r2 < 1) and (r3 < 1) and \
                   (prices.iloc[i] / prices.iloc[i-3] < 0.95)
            
            if con1 or con2:
                result.iloc[i] = 0.0
        
        return result

2. 信号层

"""framework_v2/shared/signals/topn_selector.py"""

import pandas as pd
import numpy as np
from framework_v2.core import SignalGenerator
from framework_v2.core.validation import (
    validate_factor_input,
    validate_signal_output
)


class TopNSelector(SignalGenerator):
    """
    Top N 选股器
    
    架构：
    - 接口层：DataFrame（用户友好）
    - 内部层：numpy（高性能）
    - 验证层：装饰器（结构安全）
    """
    
    mode = "topn"
    
    def __init__(
        self,
        select_num: int = 3,
        min_score: float = 0.0,
        rebalance_days: int = 5
    ):
        super().__init__(
            select_num=select_num,
            min_score=min_score,
            rebalance_days=rebalance_days
        )
        self.select_num = select_num
        self.min_score = min_score
        self.rebalance_days = rebalance_days
    
    @validate_factor_input   # ← 输入验证
    @validate_signal_output  # ← 输出验证
    def generate(self, factor_df: pd.DataFrame) -> pd.DataFrame:
        """
        生成选股信号
        
        数据流：
        DataFrame → numpy 排序 → 选择 Top N → DataFrame
        
        Args:
            factor_df: 因子数据（日期 × 标的）
        
        Returns:
            信号 DataFrame（包含 'signal' 列）
        """
        # 处理 NaN：填充为负无穷，确保 NaN 不参与排名
        factor_clean = factor_df.fillna(-np.inf)
        
        # 生成信号
        signals = []
        for i in range(len(factor_clean)):
            # numpy 排序（高性能）
            scores = factor_clean.iloc[i].values
            codes = factor_clean.columns.tolist()
            
            # Top N
            top_indices = np.argsort(scores)[-self.select_num:][::-1]
            top_codes = [codes[idx] for idx in top_indices if scores[idx] > -np.inf]
            
            # 过滤低于阈值的
            top_codes = [
                code for code in top_codes 
                if factor_clean.iloc[i][code] >= self.min_score
            ]
            
            signals.append(','.join(top_codes))
        
        # 应用调仓控制（每 rebalance_days 天调仓）
        signals = self._apply_rebalance_control(signals)
        
        # 输出 DataFrame
        return pd.DataFrame({
            'signal': signals,
            'date': factor_df.index
        }, index=factor_df.index)
    
    def _apply_rebalance_control(self, signals: list) -> list:
        """调仓控制"""
        result = []
        last_signal = ''
        
        for i, signal in enumerate(signals):
            if i % self.rebalance_days == 0:
                last_signal = signal
            result.append(last_signal)
        
        return result

3. 数据获取层

"""framework_v2/shared/data/rotation_fetcher.py"""

import pandas as pd
import numpy as np
from framework_v2.core import DataFetcher
from framework_v2.core.validation import validate_ohlcv


class RotationDataFetcher(DataFetcher):
    """
    轮动策略数据获取器
    
    架构：
    - 返回 DataFrame（兼容现有代码）
    - 内部可优化类型（float32）
    - 验证数据结构
    """
    
    name = "rotation"
    
    def __init__(self, **params):
        super().__init__(**params)
    
    def fetch_indices(
        self,
        codes: list,
        start: str,
        end: str
    ) -> dict:
        """
        获取指数 OHLCV 数据
        
        返回：
        {
            'code1': DataFrame(close, open, high, low, volume),
            'code2': DataFrame(...),
            ...
        }
        """
        result = {}
        for code in codes:
            # 获取数据（具体实现调用底层数据源）
            df = self._fetch_single_index(code, start, end)
            
            # 优化类型（减少内存）
            for col in ['close', 'open', 'high', 'low', 'volume']:
                if col in df.columns:
                    df[col] = df[col].astype(np.float32)
            
            # 验证数据结构
            self._validate_ohlcv(df, code)
            
            result[code] = df
        
        return result
    
    def _fetch_single_index(
        self,
        code: str,
        start: str,
        end: str
    ) -> pd.DataFrame:
        """获取单个指数数据（具体实现）"""
        # 调用底层数据源（akshare, yfinance 等）
        # 返回 DataFrame
        ...
    
    def _validate_ohlcv(self, df: pd.DataFrame, code: str):
        """验证 OHLCV 数据结构"""
        if 'close' not in df.columns:
            raise ValueError(f"{code}: 缺少 'close' 列")
        
        if not pd.api.types.is_numeric_dtype(df['close']):
            raise TypeError(f"{code}: 'close' 列必须是数值类型")
        
        if df['close'].isna().all():
            raise ValueError(f"{code}: 'close' 列全为 NaN")

📊 性能对比

测试场景

数据：5000 行 × 20 个标的
因子：25 日加权动量
硬件：MacBook Pro M1

结果

实现方式	耗时	相对性能	内存
DataFrame rolling apply	15.2s	1x	400 MB
DataFrame apply(axis=1)	8.5s	1.8x	350 MB
numpy 循环（推荐）	0.2s	76x	200 MB
numpy 向量化	0.1s	152x	150 MB

🎯 验证策略

开发环境 vs 生产环境

# 开发环境：完整验证（抓错误）
class MomentumFactor(FactorBase):
    @validate_dataframe_schema(OHLCVSchema, sample_size=10)  # 完整验证
    def compute(self, data: pd.DataFrame) -> pd.Series:
        ...

# 生产环境：轻量验证（高性能）
class MomentumFactor(FactorBase):
    @validate_ohlcv  # 只检查列名+类型
    def compute(self, data: pd.DataFrame) -> pd.Series:
        ...

配置切换

"""framework_v2/config.py"""

import os

# 验证级别
VALIDATION_LEVEL = os.getenv('FRAMEWORK_VALIDATION', 'light')
# 'full'  = 完整验证（开发）
# 'light' = 轻量验证（生产）
# 'none'  = 无验证（性能测试）


def get_validation_decorator(schema_class=None):
    """根据配置返回验证装饰器"""
    if VALIDATION_LEVEL == 'full':
        return validate_dataframe_schema(schema_class, sample_size=10)
    elif VALIDATION_LEVEL == 'light':
        return validate_ohlcv
    else:
        return lambda func: func  # 无验证

📝 使用示例

完整流程

from framework_v2.shared.factors import MomentumFactor
from framework_v2.shared.signals import TopNSelector
from framework_v2.shared.data import RotationDataFetcher

# 1. 获取数据（DataFrame）
fetcher = RotationDataFetcher()
data = fetcher.fetch_indices(
    codes=['^GSPC', '^IXIC', '^NDX'],
    start='2020-01-01',
    end='2024-01-01'
)
# data['^GSPC'] = DataFrame(close, open, high, low, volume)

# 2. 计算因子（DataFrame → numpy → DataFrame）
factor = MomentumFactor(n_days=25, weighted=True, crash_filter=True)
factor_df = pd.DataFrame({
    code: factor.compute(data[code])
    for code in data.keys()
})
# factor_df = DataFrame(^GSPC, ^IXIC, ^NDX)

# 3. 生成信号（DataFrame → numpy → DataFrame）
selector = TopNSelector(select_num=3, min_score=0.0)
signals = selector.generate(factor_df)
# signals = DataFrame(date, signal)

# 4. 执行回测（DataFrame → numpy → DataFrame）
# ...

🔧 迁移路径

阶段 1：添加验证（1 天）

创建 framework_v2/core/schemas.py
创建 framework_v2/core/validation.py
在现有因子中添加 @validate_ohlcv
运行测试验证

阶段 2：优化性能（2-3 天）

因子内部改用 numpy
消除所有 apply(axis=1)
对比验证新旧输出一致性

阶段 3：完整迁移（1-2 周）

信号层迁移
执行层迁移
完整策略对比测试
性能基准测试

⚠️ 注意事项

性能开销：完整验证有 ~5-10% 性能开销，生产环境用轻量验证
NaN 处理：显式填充 NaN（fillna(-np.inf)），而不是依赖默认排序
类型优化：价格数据用 float32（精度足够，省 50% 内存）
向后兼容：保持 DataFrame 接口，不改变外部调用方式
错误信息：验证失败时提供详细错误信息（当前列、需要列、示例数据）

📚 参考资料

项目现有 Pydantic 实践：datasource/models.py
Pandas 性能优化：https://pandas.pydata.org/docs/user_guide/enhancingperf.html
Pydantic 验证：https://docs.pydantic.dev/latest/

🔗 相关文档

跨市场对齐方案 - CrossMarketAligner 使用指南
数据流完整推演 - 从 OHLCV 到最终收益的 7 个阶段推演
框架 V2 README - 框架总览

创建日期: 2026-05-06 版本: 1.0.0

28 KiB Raw Blame History Unescape Escape

framework_v2 数据架构方案

📋 设计目标

核心原则

🏗️ 架构设计

三层数据流

📐 Schema 定义（结构契约）

1. OHLCV 数据 Schema

🔍 验证装饰器

1. 输入验证

2. 输出验证

💻 组件实现示例

1. 因子层

2. 信号层

3. 数据获取层

📊 性能对比

测试场景

结果

🎯 验证策略

开发环境 vs 生产环境

配置切换

📝 使用示例

完整流程

🔧 迁移路径

阶段 1：添加验证（1 天）

阶段 2：优化性能（2-3 天）

阶段 3：完整迁移（1-2 周）

⚠️ 注意事项

📚 参考资料

🔗 相关文档

28 KiB

Raw Blame History