docs: 添加金融相关性计算方法调研报告

调研背景:
- 分析韩国半导体ETF相关性时发现Pearson与Spearman矛盾
- 短债vs韩国:Pearson=0.771(异常高),Spearman=-0.007(不相关)
- 波动率差距100倍导致Pearson偏差

调研结论:
- Pearson在波动率差距大时不可靠
- Spearman对极端值稳健,推荐用于金融
- 业界(AQR)使用月度数据或波动率标准化

参考文献:
- Kendall Correlation for Portfolio Optimization (arXiv)
- Value and Momentum Everywhere (AQR)
- DCC-GARCH (风险管理标准)
This commit is contained in:
2026-06-22 14:42:02 +08:00
parent d4edbbb58a
commit 4a5466d7fa

View File

@@ -0,0 +1,282 @@
# 金融资产相关性计算方法调研报告
> 调研日期2026-06-22
> 调研来源学术文献、业界实践AQR、实验验证
> Git Commit`d4edbbb`(验证实验)
> 当前结论金融资产相关性计算应使用Spearman或波动率标准化Pearson而非原始Pearson
---
## 1. 调研背景
### 1.1 问题来源
在分析韩国半导体ETF513310.SH与配置中各ETF的相关性时发现**Pearson相关性出现异常结果**
| 配对 | Pearson相关性 | Spearman相关性 | 矛盾分析 |
|------|--------------|---------------|---------|
| 短债指数 vs 韩国半导体 | **0.771**(高度正相关) | **-0.007**(不相关) | 极度矛盾 |
| 纵指100 vs 韩国半导体 | 0.384(中等) | 0.406(中等) | 基本一致 |
**核心疑问**短债指数防御资产与韩国半导体高风险周期股相关性高达0.771完全不符合金融常识,为何会出现这种异常?
### 1.2 数据特征
| 标的 | 波动率(年化) | 日收益率标准差 | 日收益率范围 |
|------|--------------|---------------|-------------|
| 短债指数 | **0.56%** | 0.000351 | [-0.04%, 0.72%] |
| 韩国半导体 | **60.51%** | 0.026084 | [-10%, 10%] |
| 纵指100 | 24.53% | 0.0098 | [-5%, 5%] |
**关键发现**:短债与韩国半导体波动率差距**100倍**这可能导致Pearson相关性计算偏差。
---
## 2. 调研内容
### 2.1 相关性计算方法对比
| 方法 | 定义 | 适用场景 | 缺点 | 金融应用 |
|------|------|---------|------|---------|
| **Pearson** | 线性相关性,$r = \frac{\sum(x-\bar{x})(y-\bar{y})}{\sqrt{\sum(x-\bar{x})^2\sum(y-\bar{y})^2}}$ | 正态分布、无极端值 | ❌敏感于极端值、异方差 | 基础研究,但需谨慎 |
| **Spearman** | 排序相关性基于Rank | 非线性关系、有极端值 | 只捕捉单调关系 | **推荐用于金融** |
| **Kendall** | 秩相关性(τ系数) | 小样本、非正态分布 | 计算量较大 | 投资组合优化 |
| **DCC-GARCH** | Dynamic Conditional Correlation | 时变相关性 | 模型复杂 | **风险管理标准** |
| **Copula** | 尾部相关性 | 极端事件、危机期间 | 参数选择困难 | 风险压力测试 |
### 2.2 Pearson相关性在金融中的局限性
#### 2.2.1 极端值敏感
根据学界研究Pearson相关性受极端值outliers严重影响
- 金融时间序列常有极端波动(黑天鹅事件)
- 一个极端日可以扭曲整个相关性估计
-某日韩国半导体涨10%短债涨0.1%该日对Pearson贡献极大
**来源**[The instability of the Pearson correlation coefficient](https://ideas.repec.org/a/eee/finlet/v13y2015icp243-257.html)
#### 2.2.2 波动率尺度问题Heteroskedasticity
Pearson相关性假设两个序列具有相似的波动率尺度
- 短债波动率0.56%(几乎不动)
- 韩国半导体波动率60.51%(剧烈波动)
- 波动率差距100倍时Pearson相关性会产生偏差
**业界标准做法**进行波动率标准化volatility scaling
$$r_{scaled} = corr(\frac{r_1}{\sigma_1}, \frac{r_2}{\sigma_2})$$
**来源**[Robust estimation of historical volatility and correlations](https://ideas.repec.org/a/taf/quantf/v9y2009i1p43-54.html)
#### 2.2.3 非正态分布
金融收益率分布特征:
- **厚尾**fat-tailed极端事件发生频率高于正态分布预期
- **偏态**skewed不对称分布
- Pearson假设正态分布实际数据不符合假设
**来源**[Modelling time-varying correlations of financial markets](https://www.researchgate.net/publication/4799583_Modelling_time-varying_correlations_of_financial_markets)
#### 2.2.4 时变性问题
金融相关性随市场状态变化:
- 牛市相关性:通常较低(分散化有效)
- 熊市相关性通常上升correlation breakdown
- Pearson假设静态相关性忽略了动态特性
**来源**[Dynamic Conditional Correlation GARCH](https://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2722&context=jmasm)
### 2.3 学界推荐的最佳实践
#### 2.3.1 投资组合优化Kendall或Spearman
根据 [Kendall Correlation Coefficients for Portfolio Optimization](https://arxiv.org/html/2410.17366v1)
> Kendall τ系数在投资组合优化中表现优于Pearson原因是对极端值稳健能捕捉非线性关系。
**核心结论**
- Kendall/Spearman对极端值稳健
- 不依赖于收益率分布假设
- 更适合厚尾、非正态的金融数据
#### 2.3.2 风险管理DCC-GARCH
根据 [A DCC GARCH Approach to Understanding Equity-Bond Correlation](https://research.cbs.dk/files/98730005/1605479_AferlaHDecker_Thesis.pdf)
> Dynamic Conditional Correlation (DCC)模型允许相关性随时间变化,是风险管理的业界标准。
**应用场景**
- VaR/CVaR计算
- 压力测试
- 跨资产风险监控
#### 2.3.3 压力测试Copula
根据 [Tail Dependence - Copula Models](https://wisostat.uni-koeln.de/fileadmin/sites/statistik/pdf_publikationen/TDCSchmidt.pdf)
> Copula模型能捕捉尾部相关性tail dependence在危机期间相关性上升时尤为重要。
**应用场景**
- 黑天鹅事件模拟
- 极端风险情景分析
### 2.4 业界实践案例
#### 2.4.1 AQR的做法
根据 [Value and Momentum Everywhere](https://w4.stern.nyu.edu/facdir/lpederse/papers/ValMomEverywhere.pdf)
**核心方法**
1. 使用**月度收益率**而非日度(降低噪音)
2. 计算**滚动相关性**长期窗口如36个月
3. 跨资产相关性矩阵分析
**原因**
- 日度收益率噪音太大
- 月度数据更稳定,相关性估计更可靠
- 滚动窗口捕捉动态变化
#### 2.4.2 风险管理标准
根据 [Understanding Correlation in Finance](https://www.scribd.com/document/937587716/2-CORRELATION)
**最佳实践**
- 正常时期使用Spearman或Kendall
- 波动率差距大时:使用波动率标准化
- 动态监控使用DCC-GARCH
- 压力测试使用Copula
---
## 3. 验证实验
### 3.1 实验设计
**实验目标**:验证不同相关性计算方法在波动率差距大的情况下的一致性
**实验对象**
- 短债指数波动率0.56%
- 韩国半导体ETF波动率60.51%
- 纵指100 ETF波动率24.53%
**计算方法**
- Pearson相关性
- Spearman相关性
### 3.2 实验结果
| 配对 | Pearson | Spearman | 差异分析 |
|------|---------|----------|---------|
| 短债 vs 韩国 | **0.771** | **-0.007** | Pearson异常高Spearman不相关 |
| 短债 vs 纵指 | 0.101 | -0.003 | 基本一致(都不相关) |
| 韩国 vs 纵指 | 0.384 | 0.406 | 基本一致(中等相关) |
### 3.3 结果分析
**短债 vs 韩国半导体 Pearson=0.771 异常原因**
1. **波动率差距100倍**导致计算偏差
2. Pearson对极端值敏感韩国半导体日涨跌10%的极端日对相关性贡献过大
3. 短债几乎不动,但极端日"同向变动"的偶然性被放大
**Spearman=-0.007 是正确结果**
1. Spearman基于排序不受波动率尺度影响
2. 短债排序几乎不变,韩国半导体排序剧烈变化
3. 排序变化无相关性 → Spearman接近0
---
## 4. 结论与建议
### 4.1 核心结论
| 结论 | 说明 |
|------|------|
| **Pearson相关性在波动率差距大时不可靠** | 波动率差距超过10倍时应避免使用原始Pearson |
| **Spearman相关性更稳健** | 对极端值稳健,不受波动率尺度影响 |
| **业界推荐:波动率标准化或月度数据** | AQR使用月度数据风险管理使用波动率标准化 |
### 4.2 对本项目的影响
**韩国半导体ETF相关性结论使用Spearman**
| ETF | Spearman相关性 | 配置建议 |
|-----|---------------|---------|
| 纵指100 | 0.406 | 中等相关,可配置 |
| 日经225 | 需重算 | - |
| 创业板 | 需重算 | - |
| 短债 | -0.007 | 不相关,无竞争 |
| 黄金 | 需重算 | - |
### 4.3 建议修正方案
**推荐计算方法**
```python
def calculate_correlation_robust(prices1, prices2, method='spearman'):
"""
金融资产相关性计算(稳健方法)
Args:
prices1, prices2: 价格序列
method: 'spearman', 'kendall', 'vol_scaled_pearson', 'monthly'
Returns:
相关系数
"""
import pandas as pd
returns1 = prices1.pct_change().dropna()
returns2 = prices2.pct_change().dropna()
if method == 'spearman':
# 排序相关性(对极端值稳健)
return returns1.corr(returns2, method='spearman')
elif method == 'kendall':
# Kendall秩相关性
return returns1.corr(returns2, method='kendall')
elif method == 'vol_scaled_pearson':
# 波动率标准化Pearson业界标准
vol1, vol2 = returns1.std(), returns2.std()
scaled1, scaled2 = returns1/vol1, returns2/vol2
return scaled1.corr(scaled2, method='pearson')
elif method == 'monthly':
# 月度收益率相关性AQR做法
monthly1 = prices1.resample('M').last().pct_change().dropna()
monthly2 = prices2.resample('M').last().pct_change().dropna()
return monthly1.corr(monthly2, method='pearson')
```
### 4.4 后续建议
1. **重算韩国半导体与所有配置ETF的Spearman相关性**
2. **基于正确相关性判断是否加入配置**
3. **建立标准化的相关性计算脚本**,避免未来出现类似问题
---
## 5. 参考文献
### 学术文献
1. [Kendall Correlation Coefficients for Portfolio Optimization - arXiv](https://arxiv.org/html/2410.17366v1)
2. [Value and Momentum Everywhere - NYU Stern](https://w4.stern.nyu.edu/facdir/lpederse/papers/ValMomEverywhere.pdf)
3. [Dynamic Conditional Correlation GARCH](https://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2722&context=jmasm)
4. [Robust estimation of historical volatility and correlations](https://ideas.repec.org/a/taf/quantf/v9y2009i1p43-54.html)
5. [Tail Dependence - Copula Models](https://wisostat.uni-koeln.de/fileadmin/sites/statistik/pdf_publikationen/TDCSchmidt.pdf)
### 业界实践
1. [Value and Momentum Everywhere - AQR](https://www.aqr.com/Insights/Datasets/Value-and-Momentum-Everywhere-Factors-Monthly)
2. [Cross-asset Correlation - QuestDB](https://questdb.com/glossary/cross-asset-correlation/)
3. [Understanding Correlation in Finance](https://www.scribd.com/document/937587716/2-CORRELATION)
---
**文档版本**v1.0
**创建日期**2026-06-22
**调研状态**:已完成