feat(rotation): 支持混合数据源并优化因子计算和策略逻辑

- 删除旧的Tushare Token环境变量函数，简化配置 - 在配置文件中新增全市场指数及SSH隧道配置支持YFinance数据访问 - 更新compute_factors函数，支持长格式混合数据源，兼容旧宽格式数据 - 修改RotationStrategy使用HybridDataSource，支持Tushare与YFinance数据源混合 - 添加SSH隧道支持，实现安全访问非主市场数据 - 优化因子计算逻辑，提升缺失值处理和因子合并的鲁棒性 - 修正基准净值计算，兼容长宽格式基准数据处理 - 增强信号生成逻辑，处理因子得分中的NaN情况防止异常
2026-03-19 20:38:13 +08:00
parent 062f500369
commit 9ea84f0e57
4 changed files with 139 additions and 46 deletions
--- a/core/factors/momentum.py
+++ b/core/factors/momentum.py
@@ -87,9 +87,10 @@ def compute_factors(
 ) -> tuple[pd.DataFrame, list]:
    """
    计算所有指数的因子和日收益率
+    支持长格式数据（混合数据源：Tushare + YFinance）

    Args:
-        etf_data: DataFrame, 宽表格式的收盘价
+        etf_data: DataFrame, 长格式数据，包含 [code, close, source] 列
        code_list: 指数代码列表
        n: 动量/趋势窗口
        factor_type: 'momentum' 或 'slope_r2'
@@ -97,36 +98,87 @@ def compute_factors(
    Returns:
        tuple: (result_df, valid_codes)
    """
-    result = etf_data.copy()
+    # 检查数据格式
+    if 'code' in etf_data.columns:
+        # 长格式数据 - 按 code 分别计算因子（旧逻辑，保留兼容）
+        all_factors = []
+        valid_codes = []

-    # 过滤掉缺失值过多的指数
-    total_rows = len(result)
-    valid_codes = []
-    for code in code_list:
-        if code not in result.columns:
-            print(f"  ⚠ 跳过 {code}: 不在数据中")
-            continue
-        null_pct = result[code].isnull().sum() / total_rows
-        if null_pct > 0.2:
-            print(f"  ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
-            result = result.drop(columns=[code])
-        else:
+        for code in code_list:
+            code_data = etf_data[etf_data['code'] == code].copy()
+            if len(code_data) == 0:
+                print(f"  ⚠ 跳过 {code}: 不在数据中")
+                continue
+
+            # 检查缺失值
+            null_pct = code_data['close'].isnull().sum() / len(code_data)
+            if null_pct > 0.2:
+                print(f"  ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
+                continue
+
+            # 按日期排序
+            code_data = code_data.sort_index()
+
+            # 计算日收益率和因子
+            code_data[f"日收益率_{code}"] = calculate_daily_return(code_data['close'])
+
+            if factor_type == "momentum":
+                code_data[f"得分_{code}"] = calculate_momentum(code_data['close'], n)
+            elif factor_type == "slope_r2":
+                code_data[f"得分_{code}"] = calculate_slope_r2(code_data['close'], n)
+            else:
+                raise ValueError(f"不支持的因子类型: {factor_type}")
+
+            # 保留需要的列
+            code_data = code_data[[f"日收益率_{code}", f"得分_{code}"]]
+            all_factors.append(code_data)
            valid_codes.append(code)

-    # 对有效指数计算因子
-    for code in valid_codes:
-        result[f"日收益率_{code}"] = calculate_daily_return(result[code])
+        if not all_factors:
+            raise ValueError("没有有效的指数数据")

-        if factor_type == "momentum":
-            result[f"得分_{code}"] = calculate_momentum(result[code], n)
-        elif factor_type == "slope_r2":
-            result[f"得分_{code}"] = calculate_slope_r2(result[code], n)
-        else:
-            raise ValueError(f"不支持的因子类型: {factor_type}")
+        # 合并所有因子的数据（按日期内连接 - 只保留所有指数都有数据的日期）
+        result = all_factors[0]
+        for df in all_factors[1:]:
+            result = result.join(df, how='inner')

-    # 按得分列做 dropna
-    score_cols = [f"得分_{code}" for code in valid_codes]
-    result = result.dropna(subset=score_cols)
+        # 删除所有得分都是 NaN 的行（即窗口期内的数据）
+        score_cols = [f"得分_{code}" for code in valid_codes]
+        # 只删除完全无法比较的行（所有得分都是NaN）
+        result = result.dropna(subset=score_cols, how='all')
+
+    else:
+        # 宽格式数据（向后兼容）
+        result = etf_data.copy()
+
+        # 过滤掉缺失值过多的指数
+        total_rows = len(result)
+        valid_codes = []
+        for code in code_list:
+            if code not in result.columns:
+                print(f"  ⚠ 跳过 {code}: 不在数据中")
+                continue
+            null_pct = result[code].isnull().sum() / total_rows
+            if null_pct > 0.2:
+                print(f"  ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
+                result = result.drop(columns=[code])
+            else:
+                valid_codes.append(code)
+
+        # 对有效指数计算因子
+        for code in valid_codes:
+            result[f"日收益率_{code}"] = calculate_daily_return(result[code])
+
+            if factor_type == "momentum":
+                result[f"得分_{code}"] = calculate_momentum(result[code], n)
+            elif factor_type == "slope_r2":
+                result[f"得分_{code}"] = calculate_slope_r2(result[code], n)
+            else:
+                raise ValueError(f"不支持的因子类型: {factor_type}")
+
+        # 按得分列做 dropna
+        score_cols = [f"得分_{code}" for code in valid_codes]
+        result = result.dropna(subset=score_cols)

    print("\n因子计算完成:")
    print(f"  因子类型: {factor_type}")