量化数据预处理：去极值、标准化、中性化

本文主要是介绍量化数据预处理：去极值、标准化、中性化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

对于量化研究而言，拿到一份基础数据，首先需要对数据做预处理，以便于更好的探究数据规律，基于不同目标有不同处理环节，其中去极值、标准化、中性化这三点经常被放在一起讨论。整理网络资料，理解如下。

去极值

数据（单个因子的时间序列数据）中存在异常值，可能会导致拉大标准差、拉偏统计规律…

常规处理理念就是确定此数据指标（比如某个因子）的上下限阈值，然后超过（或低于）此限度的数据均设置为阈值，以提高数据结论的准确性。

上下限的判定方法有三种：MAD、 $3\sigma$ 法、百分位法。
- MAD(Median Absolute Deviation, 绝对值差中位数法)
  
  MAD，先计算所有因子与平均值之间的距离总和来检测离群值。
  - 计算所有因子的中位数 $X_{median}$
  - 计算每个因子与中位数的绝对偏差值 $X_i-X_{median}$
  - 计算绝对偏差值的中位数 $M A D$
  - 确定参数 $n$ ，从而确定合理的范围为 $X_{median}-n*MAD,X_{median}+n*MAD]$ ，针对超出合理范围的值做如下调整：
    
    $X_i'=\begin{cases}X_{median}+n*MAD\;\;\;if \;X_i>X_{median}+n*MAD\\X_{median}-n*MAD\;\;\;if\;X_i<X_{median}-n*MAD \\ X_i\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;if \;X_{median}-n*MAD<X_i<X_{median}+n*MAD \end{cases}$
```
# 代码实现
def mad(series,n):median = series.quantile(0.5)diff_median = ((series - median).abs()).quantile(0.5)max_range = median + n * diff_medianmin_range = median - n * diff_medianreturn np.clip(series, min_range, max_range)
```
- $3\sigma$ 法
  
  $3\sigma$ 法又称为标准差法。
  
  标准差本身可以体现因子的离散程度，是基于因子的平均值 $X_{mean}$ 而定的。可以通过 $X_{mean}\pm n*\sigma$ 来衡量因子与平均值的距离。
  - 计算出因子的平均值与标准差；
  - 确认参数 $n$ ;
  - 确认因子值的合理范围为 $[X_{mean}-n*\sigma,X_{mean}+n*\sigma]$ ，并对因子值做如下的调整：
    $X_i'=\begin{cases}X_{mean}+n*\sigma\;\;\;if \;X_i>X_{mean}+n*\sigma\\X_{mean}-n*\sigma\;\;\;if\;X_i<X_{mean}-n*\sigma \\ X_i\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;if \;X_{mean}-n*\sigma<X_i<X_{mean}+n*\sigma \end{cases}$
```
# 代码实现
def three_sigma(series,n):mean = series.mean()std = series.std()max_range = mean + n * stdmin_range = mean - n * stdreturn np.clip(series, min_range, max_range)
```
- 百分位法
  
  将因子值进行升序排列，对排位百分位高于97.5%或低于2.5%的因子值，进行类似于MAD、 $3\sigma$ 的操作。
```
# 代码实现
def percentile(series, min= 0.025, max= 0.975):series = series.sort_values()q = series.quantile([min, max])return np.clip(series, q.iloc[0], q.iloc[-1])
```
标准化

对于多因子策略，不同因子的量纲和数量级不同，为实现不同指标的可加性，需要对原始指标数据进行标准化处理。

数据标准化方法分类：
- 直线型：极值法、标准差法
- 折线型：三折线法
- 曲线型法：半正态性分布
数据标准化处理主要包括：
- 数据同趋化：主要解决不同性质数据问题，使所有指标对评测方案的作用力同趋化
- 无量纲化：主要解决数据的可比性。
数据标准化原理是将数据按比例缩放，使所有数据落入一个小的特定区间。最常见的就是归一化，将数据统一映射到[0,1]之间。

归一化是标准化的特例，标准化是特征缩放的特例。

数据标准化的具体方法：
- 最小-最大标准化(Min-max normalization)离差标准化
  
  Min-max normalization又称为离差标准化，是常见的归一化处理
  - 获取因子值最大值max，最小值min；
  - 对数据进行线性变化
    
    $y_i=\frac{x_i-min_{1\leq j \leq n}\{x_j\}}{max_{1\leq j \leq n}\{x_j\}-min_{1\leq j \leq n}\{x_j\}}$
- Z-score标准化
  
  $标准化后数据=\frac{原始数据-单个指标内所有值的均值}{单个指标内所有值的标准差}$
```
# 代码实现
def standard_z_score(series):std = series.std()mean = series.mean()return (series-mean)/std
```
- 按小数定标标准化
中性化

中性化目的：为了在用某一个因子时能剔除其他因素的影响，使得选出的股票更加分散。相比而言，标准化使不同量级指标之间需要互相比较或者数据需要变得集中。

主要处理方式为：利用回归得到一个与风险因子线性无关的因子。即通过简历线性回归，提取残差作为中性化后的新因子。这样处理后的中性化因子与风险因子之间的相关性严格为零。
$Factor_i=\beta_M*ln(MktVal_i)+\sum^n_{j=1}\beta_j*Industry_{j,i}+\epsilon_i$

Reference

1行代码完成去极值、标准化、行业与市值中性化—以pb因子为例
数据处理专题：去极值、标准化、中性化
Wikipedia Feature scaling
Wikipedia Normalization (statistics)

这篇关于量化数据预处理：去极值、标准化、中性化的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

量化数据预处理：去极值、标准化、中性化

去极值

MAD(Median Absolute Deviation, 绝对值差中位数法)

计算所有因子的中位数 $X_{median}$

计算每个因子与中位数的绝对偏差值 $X_i-X_{median}$

计算绝对偏差值的中位数 $M A D$

确定参数 $n$ ，从而确定合理的范围为 $X_{median}-nMAD,X_{median}+nMAD]$ ，针对超出合理范围的值做如下调整：

$3\sigma$ 法

百分位法

标准化

直线型：极值法、标准差法

折线型：三折线法

曲线型法：半正态性分布

数据同趋化：主要解决不同性质数据问题，使所有指标对评测方案的作用力同趋化

无量纲化：主要解决数据的可比性。

最小-最大标准化(Min-max normalization)离差标准化

获取因子值最大值max，最小值min；

对数据进行线性变化

Z-score标准化

按小数定标标准化

中性化

Reference

相关文章

Python获取中国节假日数据记录入JSON文件

Java利用JSONPath操作JSON数据的技术指南

MySQL大表数据的分区与分库分表的实现

Mysql删除几亿条数据表中的部分数据的方法实现

Python Dash框架在数据可视化仪表板中的应用与实践记录

Redis 中的热点键和数据倾斜示例详解

Python实现将MySQL中所有表的数据都导出为CSV文件并压缩

SpringBoot整合jasypt实现重要数据加密

使用Python高效获取网络数据的操作指南

Oracle存储过程里操作BLOB的字节数据的办法

量化数据预处理：去极值、标准化、中性化

去极值

MAD(Median Absolute Deviation, 绝对值差中位数法)

计算所有因子的中位数 X m e d i a n X_{median} Xmedian​

计算每个因子与中位数的绝对偏差值 X i − X m e d i a n X_i-X_{median} Xi​−Xmedian​

计算绝对偏差值的中位数 M A D MAD MAD

确定参数 n n n，从而确定合理的范围为 [ X m e d i a n − n ∗ M A D , X m e d i a n + n ∗ M A D ] [X_{median}-n*MAD,X_{median}+n*MAD] [Xmedian​−n∗MAD,Xmedian​+n∗MAD]，针对超出合理范围的值做如下调整：

3 σ 3\sigma 3σ法

百分位法

标准化

直线型：极值法、标准差法

曲线型法：半正态性分布

数据同趋化：主要解决不同性质数据问题，使所有指标对评测方案的作用力同趋化

最小-最大标准化(Min-max normalization)离差标准化

获取因子值最大值max，最小值min；

Z-score标准化

按小数定标标准化

Reference

相关文章

计算所有因子的中位数 $X_{median}$

计算每个因子与中位数的绝对偏差值 $X_i-X_{median}$

计算绝对偏差值的中位数 $M A D$

确定参数 $n$ ，从而确定合理的范围为 $X_{median}-nMAD,X_{median}+nMAD]$ ，针对超出合理范围的值做如下调整：

$3\sigma$ 法