feat(data-source): 支持指数-ETF双轨数据获取及因子计算

- 新增使用Tushare获取A股ETF价格及净值数据的私有方法
- fetch_all方法支持接收完整代码配置,区分指数与ETF及市场类别
- 指数数据和ETF数据分别下载,ETF净值数据用于溢价率计算
- 采用A股交易日为主交易日历,非A股数据前向填充对齐
- 调整因子计算,支持指数价格计算因子,ETF价格计算收益率
- run_rotation脚本和RotationStrategy引擎适配指数-ETF配置格式
- 代码结构优化,增强多市场及加密货币处理能力
This commit is contained in:
2026-03-25 22:01:44 +08:00
parent e6898a851c
commit ec749314bc
4 changed files with 366 additions and 183 deletions

View File

@@ -80,110 +80,74 @@ def calculate_daily_return(price_series: pd.Series) -> pd.Series:
def compute_factors(
etf_data: pd.DataFrame,
index_data: pd.DataFrame,
code_list: list,
n: int = 25,
factor_type: str = "slope_r2",
etf_data: pd.DataFrame = None,
code_config: dict = None,
) -> tuple[pd.DataFrame, list]:
"""
计算所有指数的因子和日收益率
支持长格式数据混合数据源Tushare + YFinance
计算所有指数的因子和日收益率(支持指数-ETF双轨数据
Args:
etf_data: DataFrame, 长格式数据,包含 [code, close, source] 列
index_data: 指数价格数据(宽格式,用于因子计算)
code_list: 指数代码列表
n: 动量/趋势窗口
factor_type: 'momentum''slope_r2'
etf_data: ETF价格数据宽格式用于收益计算
code_config: 代码配置字典 {code: {name, etf, market}},用于判断是否为加密货币
Returns:
tuple: (result_df, valid_codes)
- result_df: 包含因子得分和日收益率的DataFrame
- valid_codes: 有效代码列表
"""
# 检查数据格式
if 'code' in etf_data.columns:
# 长格式数据 - 按 code 分别计算因子(旧逻辑,保留兼容)
all_factors = []
valid_codes = []
for code in code_list:
code_data = etf_data[etf_data['code'] == code].copy()
if len(code_data) == 0:
print(f" ⚠ 跳过 {code}: 不在数据中")
continue
# 检查缺失值
null_pct = code_data['close'].isnull().sum() / len(code_data)
if null_pct > 0.2:
print(f" ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
continue
# 按日期排序
code_data = code_data.sort_index()
# 计算日收益率和因子
code_data[f"日收益率_{code}"] = calculate_daily_return(code_data['close'])
if factor_type == "momentum":
code_data[f"得分_{code}"] = calculate_momentum(code_data['close'], n)
elif factor_type == "slope_r2":
code_data[f"得分_{code}"] = calculate_slope_r2(code_data['close'], n)
else:
raise ValueError(f"不支持的因子类型: {factor_type}")
# 保留需要的列
code_data = code_data[[f"日收益率_{code}", f"得分_{code}"]]
all_factors.append(code_data)
code_config = code_config or {}
# 如果没有提供ETF数据创建一个空的DataFrame
if etf_data is None:
etf_data = pd.DataFrame()
result = index_data.copy()
# 过滤掉缺失值过多的指数
total_rows = len(result)
valid_codes = []
for code in code_list:
if code not in result.columns:
print(f" ⚠ 跳过 {code}: 不在数据中")
continue
null_pct = result[code].isnull().sum() / total_rows
if null_pct > 0.2:
print(f" ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
result = result.drop(columns=[code])
else:
valid_codes.append(code)
if not all_factors:
raise ValueError("没有有效的指数数据")
# 对有效指数计算因子和收益率
for code in valid_codes:
# 因子基于指数价格计算
if factor_type == "momentum":
result[f"得分_{code}"] = calculate_momentum(result[code], n)
elif factor_type == "slope_r2":
result[f"得分_{code}"] = calculate_slope_r2(result[code], n)
else:
raise ValueError(f"不支持的因子类型: {factor_type}")
# 日收益率基于指数价格计算(回测使用指数价格)
result[f"日收益率_{code}"] = calculate_daily_return(result[code])
# 合并所有因子的数据(按日期内连接 - 只保留所有指数都有数据的日期)
result = all_factors[0]
for df in all_factors[1:]:
result = result.join(df, how='inner')
# 删除所有得分都是 NaN 的行(即窗口期内的数据)
score_cols = [f"得分_{code}" for code in valid_codes]
# 只删除完全无法比较的行所有得分都是NaN
result = result.dropna(subset=score_cols, how='all')
else:
# 宽格式数据(向后兼容)
result = etf_data.copy()
# 过滤掉缺失值过多的指数
total_rows = len(result)
valid_codes = []
for code in code_list:
if code not in result.columns:
print(f" ⚠ 跳过 {code}: 不在数据中")
continue
null_pct = result[code].isnull().sum() / total_rows
if null_pct > 0.2:
print(f" ⚠ 剔除 {code}: 缺失率 {null_pct:.1%} 过高")
result = result.drop(columns=[code])
else:
valid_codes.append(code)
# 对有效指数计算因子
for code in valid_codes:
result[f"日收益率_{code}"] = calculate_daily_return(result[code])
if factor_type == "momentum":
result[f"得分_{code}"] = calculate_momentum(result[code], n)
elif factor_type == "slope_r2":
result[f"得分_{code}"] = calculate_slope_r2(result[code], n)
else:
raise ValueError(f"不支持的因子类型: {factor_type}")
# 按得分列做 dropna
score_cols = [f"得分_{code}" for code in valid_codes]
result = result.dropna(subset=score_cols)
# 按得分列做 dropna
score_cols = [f"得分_{code}" for code in valid_codes]
result = result.dropna(subset=score_cols)
print("\n因子计算完成:")
print(f" 因子类型: {factor_type}")
print(f" 窗口天数: {n}")
print(f" 有效指数: {len(valid_codes)}/{len(code_list)}")
print(f" 有效数据: {len(result)}")
if etf_data is not index_data:
print(f" 使用ETF数据计算收益: ✓")
return result, valid_codes