feat(data-source): 支持指数-ETF双轨数据获取及因子计算

- 新增使用Tushare获取A股ETF价格及净值数据的私有方法 - fetch_all方法支持接收完整代码配置，区分指数与ETF及市场类别 - 指数数据和ETF数据分别下载，ETF净值数据用于溢价率计算 - 采用A股交易日为主交易日历，非A股数据前向填充对齐 - 调整因子计算，支持指数价格计算因子，ETF价格计算收益率 - run_rotation脚本和RotationStrategy引擎适配指数-ETF配置格式 - 代码结构优化，增强多市场及加密货币处理能力
2026-03-25 22:01:44 +08:00
parent e6898a851c
commit ec749314bc
4 changed files with 366 additions and 183 deletions
--- a/core/factors/momentum.py
+++ b/core/factors/momentum.py
@@ -80,110 +80,74 @@ def calculate_daily_return(price_series: pd.Series) -> pd.Series:


 def compute_factors(
-    etf_data: pd.DataFrame,
+    index_data: pd.DataFrame,
    code_list: list,
    n: int = 25,
    factor_type: str = "slope_r2",
+    etf_data: pd.DataFrame = None,
+    code_config: dict = None,
 ) -> tuple[pd.DataFrame, list]:
    """
-    计算所有指数的因子和日收益率
-    支持长格式数据（混合数据源：Tushare + YFinance）
-
+    计算所有指数的因子和日收益率（支持指数-ETF双轨数据）
+    
    Args:
-        etf_data: DataFrame, 长格式数据，包含 [code, close, source] 列
+        index_data: 指数价格数据（宽格式，用于因子计算）
        code_list: 指数代码列表
        n: 动量/趋势窗口
        factor_type: 'momentum' 或 'slope_r2'
+        etf_data: ETF价格数据（宽格式，用于收益计算）
+        code_config: 代码配置字典 {code: {name, etf, market}}，用于判断是否为加密货币

    Returns:
        tuple: (result_df, valid_codes)
+        - result_df: 包含因子得分和日收益率的DataFrame
+        - valid_codes: 有效代码列表
    """
-    # 检查数据格式
-    if 'code' in etf_data.columns:
-        # 长格式数据 - 按 code 分别计算因子（旧逻辑，保留兼容）
-        all_factors = []
-        valid_codes = []
-
-        for code in code_list:
-            code_data = etf_data[etf_data['code'] == code].copy()
-            if len(code_data) == 0:
-                print(f"  ⚠ 跳过 {code}: 不在数据中")
-                continue
-
-            # 检查缺失值
-            null_pct = code_data['close'].isnull().sum() / len(code_data)
-            if null_pct > 0.2:
-                print(f"  ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
-                continue
-
-            # 按日期排序
-            code_data = code_data.sort_index()
-
-            # 计算日收益率和因子
-            code_data[f"日收益率_{code}"] = calculate_daily_return(code_data['close'])
-
-            if factor_type == "momentum":
-                code_data[f"得分_{code}"] = calculate_momentum(code_data['close'], n)
-            elif factor_type == "slope_r2":
-                code_data[f"得分_{code}"] = calculate_slope_r2(code_data['close'], n)
-            else:
-                raise ValueError(f"不支持的因子类型: {factor_type}")
-
-            # 保留需要的列
-            code_data = code_data[[f"日收益率_{code}", f"得分_{code}"]]
-            all_factors.append(code_data)
+    code_config = code_config or {}
+    
+    # 如果没有提供ETF数据，创建一个空的DataFrame
+    if etf_data is None:
+        etf_data = pd.DataFrame()
+    
+    result = index_data.copy()
+    
+    # 过滤掉缺失值过多的指数
+    total_rows = len(result)
+    valid_codes = []
+    for code in code_list:
+        if code not in result.columns:
+            print(f"  ⚠ 跳过 {code}: 不在数据中")
+            continue
+        null_pct = result[code].isnull().sum() / total_rows
+        if null_pct > 0.2:
+            print(f"  ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
+            result = result.drop(columns=[code])
+        else:
            valid_codes.append(code)

-        if not all_factors:
-            raise ValueError("没有有效的指数数据")
+    # 对有效指数计算因子和收益率
+    for code in valid_codes:
+        # 因子基于指数价格计算
+        if factor_type == "momentum":
+            result[f"得分_{code}"] = calculate_momentum(result[code], n)
+        elif factor_type == "slope_r2":
+            result[f"得分_{code}"] = calculate_slope_r2(result[code], n)
+        else:
+            raise ValueError(f"不支持的因子类型: {factor_type}")
+        
+        # 日收益率基于指数价格计算（回测使用指数价格）
+        result[f"日收益率_{code}"] = calculate_daily_return(result[code])

-        # 合并所有因子的数据（按日期内连接 - 只保留所有指数都有数据的日期）
-        result = all_factors[0]
-        for df in all_factors[1:]:
-            result = result.join(df, how='inner')
-
-        # 删除所有得分都是 NaN 的行（即窗口期内的数据）
-        score_cols = [f"得分_{code}" for code in valid_codes]
-        # 只删除完全无法比较的行（所有得分都是NaN）
-        result = result.dropna(subset=score_cols, how='all')
-
-    else:
-        # 宽格式数据（向后兼容）
-        result = etf_data.copy()
-
-        # 过滤掉缺失值过多的指数
-        total_rows = len(result)
-        valid_codes = []
-        for code in code_list:
-            if code not in result.columns:
-                print(f"  ⚠ 跳过 {code}: 不在数据中")
-                continue
-            null_pct = result[code].isnull().sum() / total_rows
-            if null_pct > 0.2:
-                print(f"  ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
-                result = result.drop(columns=[code])
-            else:
-                valid_codes.append(code)
-
-        # 对有效指数计算因子
-        for code in valid_codes:
-            result[f"日收益率_{code}"] = calculate_daily_return(result[code])
-
-            if factor_type == "momentum":
-                result[f"得分_{code}"] = calculate_momentum(result[code], n)
-            elif factor_type == "slope_r2":
-                result[f"得分_{code}"] = calculate_slope_r2(result[code], n)
-            else:
-                raise ValueError(f"不支持的因子类型: {factor_type}")
-
-        # 按得分列做 dropna
-        score_cols = [f"得分_{code}" for code in valid_codes]
-        result = result.dropna(subset=score_cols)
+    # 按得分列做 dropna
+    score_cols = [f"得分_{code}" for code in valid_codes]
+    result = result.dropna(subset=score_cols)

    print("\n因子计算完成:")
    print(f"  因子类型: {factor_type}")
    print(f"  窗口天数: {n}")
    print(f"  有效指数: {len(valid_codes)}/{len(code_list)}")
    print(f"  有效数据: {len(result)} 行")
+    if etf_data is not index_data:
+        print(f"  使用ETF数据计算收益: ✓")

    return result, valid_codes