请 [注册] 或 [登录]  | 返回主站

量化交易吧 /  量化平台 帖子:3366811 新帖:18

情景分层学习贴(不定时修改)

只求稳定发表于:5 月 10 日 06:12回复(1)

水平不够思路混乱,随手乱写,所以别介意

最近正在学习情景分层 并试图实现这样一个测试,可以参考的研报或者文章如下:

1、20180314-天风证券-金工专题报告:海外文献推荐第31期
       该方法包含三个步骤:1) 根据股票的条件定价选择合适的划分情景的维度;2)确定各情景下,最佳 的因子权重;3)将股票与各情景联系起来,从而确定股票最终的得分。尽 管在本文的情景划分维度、alpha 因子选取、最大化 IR 的模型下,本文已 经证明通过以上方式构建 alpha 模型的优点,但这并不是唯一的方法。此 外,情景方法本质上是一个以风险维度为条件的分段线性模型。虽然这可 能是最简单并且尽可能避免数据挖掘的非线性模型,也有其他方法来构造 非线性预测模型。

2、20131225-东兴证券-基于情景特征和时变特征的多因子投资策略:2014年投资策略报告
       (1)因子所处情景具有多变性,因子在不同的情景中所发挥的效用也不 相同。 (2)因子作用时间具有时变性,每个因子起作用的时间长度具有多样性, 有必要根据具体时间长度来设计策略。 (3)因子样本数据具有时变性,在不同时长的样本中,因子效果的表现 也不相同。 (4)因子发布日期具有时变性,比如每只股票的定期报告并不在同一天 发布。 本报告研究的目的就是根据因子的情景特征和时变特征来构造多因子投 资策略,从而找到可以获取稳定 Alpha 收益的方法。 研

3、20160525-东方证券-《因子选股系列研究之八》:动态情景多因子Alpha模型
       本文借鉴了国外同行的先进经验,并根据中国 A 股市场作出了相应调整,将 全市场的股票按照规模、估值、成长、盈利能力和流动性水平进行了划分, 并且在不同的股票类型中采取最优的因子权重配置方式,构建了一套动态情 景 alpha 模型。

4、20121115-广发证券-基于情景分析的多因子Alpha策略:多因子Alpha系列报告之(十四)
       采用分层因子描述个股情景特征 选股好比于我们在评价一个人的衣着是否好看,显然每个人适用的衣服大小和款式各不相同,一个好的裁缝 会根据每个人的身材特点定制合身的衣服;同样道理,一个好的选股策略应该区分股票独有的特征,采用不同的 评价模式来对其进行打分,例如个股属于什么行业行业,是否属大市值股票,是否负债较高或者是否处于快速成 长期等。 报告中采用了6个分层因子将个股的特征划分为12种情景类型,对于不同的情境类型,股票所对应的因子加 权模式都各不相同,而一只股票可能具有多项显著特征,例如某只股票既属于大股票,同时又具备低估值的特点, 因此不同个股的加权模式并不仅对应某一种情景下的因子加权模式,而应该是多种加权模式的综合,报告分别设 计了“排序打分法”以及“连续打分法”来实现对个股属于不同特征的加权。

5、情景分层下的多因子模型

情景分层的计算方法:

因子原始值 * 情景矩阵 * 个股情景得分

情景分层主要是解决2个问题,一个是因子非线性切分,一个是场景分类打分

因为很难得到完全理想的因子,大部分因子与收益对应关系是非线性的,但是又很难将非线性因子转换为线性。那么假设因子的波动分布曲线是由多个线性段组合而成,那么我们就可以将因子分段计算,近似达到线性化的目的。因为对数学不够熟?哈哈,所以我采用类比分析法,我们假设学生是目标,科目是场景:

场景:  低收入家庭,高收入家庭
因子: 午餐补助

理想情况下,该因子应该数值越高,学生成绩越好,但是我们伪造一个假想结果,相对而言午餐资助对应 低收入家庭的影响力是巨大的。因此该因子对学生的促进非常明显,呈现正相关特征。而高收入家庭,对该因子就不够敏感,假设这些学生因为不愁吃穿,导致到手的资助都去玩游戏?哈哈,然后该因子与高收入家庭的学生就出现了负相关,也就是补助越高成绩越低。

如果我们不加以区分这两种场景,只是以该因子与学生成绩计算IC就会发现相关性会很低。从而得出该因子无效的结论,因此采取了场景分割的方式来解决这个问题,按家庭收入将学生分为两个子类。各自计算与因子的相关系数作为因子效用的权重。并以因子暴露 * 因子在子类下的权重 得到该子类的效用得分。

问题1:
场景因子是否需要与市场截面有较高IC?
场景因子与市场截面IC高,说明场景因子具有较强的区分度,表现为下属子类具有稳定的收益区分,比如A子类未来收益很低,B子类未来收益很高。而且这个区分会较为稳定。但是子类权重与该因子与市场截面的相关系数无关。实际是与该子类与alpha因子相关系数统计。也就是说场景因子与市场截面IC得分并不参与子类场景的分数构成,另外alpha因子与不同子类的效用也并不受场景因子分类的约束。是否可以认为场景因子具有高IC并无必要。

问题1-II:
想到个股子类场景得分时,想到场景因子绝对IC高 还是需要的,因子暴露 * 因子与子类相关 = 有效因子暴露,参与计算参数只有 aphla因子与子类所属个股收益,一般说个股得分在一般策略中到此时已经完成,但这里是情景分层,需要对个股的场景给出一个加权分。顾名思义就是 如果当前子类是小市值类别,那么个股在小市值类别中的位置决定了个股的情景得分,因此可以用场景因子与市场截面做分层相关检查,通过相关度符号确定分数方向。所以正确的说 场景因子的分层子类绝对IC之合越高越好(代表了场景得分的区分能力)

问题2:
因子是否需要进行同向化处理
除了非线性问题外,因子与市场截面的相关方向也是需要考虑的问题。一个是因子值越高未来收益越高,反向则是因子值越低未来收益越高,那么在矩阵计算中是否会出现问题呢,假设因子值为 0.8 因子与某子类的IC为 0.6,那么该因子为该子类贡献分为 0.80.6=0.054,  负相关情况下,如因子值为 -0.8 -0.6 = 0.054, 负负得正说明在因子为子类打分这个环节上,无需考虑因子方向问题。那么结论是无论因子是正负相关,经过计算后表现在子类上的得分都被矫正为正相关。(注:因为子类只是情景分层的一部分,为了避免量纲不一致带来的混乱,需要以子类为单位做标准化处理)

问题3
子类得分与个股的关系
当得到一系列场景子类的分数后,在用这些子类为每只个股的所属子类项打分。原研报中使用个股在情景因子所属子类的顺序分作为场景权重,但是我想不明白,比如小市值类个股在场景规模因子的顺序位置是否代表了该股小市值特征更明显,如果2分为小市值和大市值,可能比较明显(越小小市值特征越明显,越大大市值特征越明显),但是如果分为小中大3层的话 中市值如何确定特征分呢? 另外研报中选择了一些经济意义比较明确的因子作为场景因子,如果含义并不明确,但是具有明显场景分类效果的因子如何都用两级化来表现特征显著性呢?(当然可以用简单的方式,不区分特征权重,仅仅是按类别,如个股属于小市值分段内直接取用该子类分数即可),至于为什么需要更多分层,也许考虑到市场分层更细致,并且二分法不能完全解决非线性问题。
或者在多分层的情况下,计算个股在所属子类分层与其中位数的接近程度 作为所属子类的特征分,只是听起来显然计算复杂化了(可以先取得分层顺序号之后转换为正态分布序列)。但是能够自圆其说的逻辑更重要一些。

问题3-II(错误,场景得分跟ahpla因子相关方向无关,应该是场景子类的相关方向)
仔细想想发现还是不对,研报中定义小市值越小子类分数越高,大市值越大分数越高,等于固定了个股在市值子类里的得分顺序,这样忽略掉了不同因子与该子类个股的不同的相对关系。比如A,B两个因子均与小市值子类相关性强,但是如果一个是正相关一个是负相关呢,对于小规模子类内部,A因子来说市值越小该股分数越高,B因子越大分数越高,显然逻辑就会说不通,也就是说在一个子类内部的顺序强度不应该被定义成固定。 当然如果个股情景得分与因子相关方向关联,计算复杂度会提升很多。

问题4:
需要多少情景因子
通过计算过程知道,算法原理是通过因子池对场景子类打分,获得各个子类的效用分数,之后对个股的场景特征项加权计分得到个股分数,也就是说个股得分的有效性取决于场景是否能够覆盖当前市场截面的正在对个股有影响力的场景。研报中大体情景因子在 4-12个左右,按2分法大致最多 24个场景。问题是我们无法预知或者也无法确定当前市场存在那些场景, 并对这些场景的影响力一无所知。总的来说是被动型应对(那么在无法确定市场到底有多少场景,也无法确定哪些正在活跃的场景下,被动性对抗自然需要尽可能多的场景资源作为应对)  另外,不同时间段市场活跃有效的场景应该是轮动变化的。就像市场不断的变化场景,总不能临到用时发现手头没有对应?

假设我们需要没有边界不存在约束的场景池,那么就需要一个能够动态机制筛选当前截面适用的场景因子,或者更自由一些,为所有因子提供一个场景分权重。对市场全信息应对计算(假设有足够特征覆盖的因子池)

哦哦 其实这不重要,因为这只是个计算问题,重要的是如何区分,一个因子是否作为场景因子是否具有较高的权重。所以:

问题5 怎样才是一个合格的场景因子
这篇文章看后觉得很有启发。

α = IC×Volatility×Score。
如果用一句话来说清楚这个α公式的含义就是:如果股票本身有α可以挖掘(α的Volatility波动率大)、我有一个准确的预测方法(在历史上预测值f和α之间的IC高),并且当期我的预测值f非常好(我对这个股票非常有信心),那么我就可以预期这支股票在未来有不错的超额收益α

其变种:
因子和α收益率的相关性越高,个股α的差异性越大,我们的选股基础就越好。在这个基础上,只需要按照该因子选出分数高的股票就可以预期得到超额的α收益。如果所有股票的α都一样(Volatility = 0)或者所有股票的因子取值都一样(Score = 0),那么上式就相当于α = 0,也就是说根本无法通过该因子选出含有超额α收益的股票;只有因子和α收益率的相关性越高,股票的差异性越大(α和因子的差异性都是越大越好),才越有可能找出α

α三要素虽然不是个实际算法,但是其实可以实现,比如如果不借助IC 如何只通过因子本身来确定因子强度? 因子值本意就是未来收益的暴露,简单的说就是因子值越高未来收益越好嘛,那么对因子值按截面做协方差逆相关加权,得到一个权重系数,就会很惊奇的发现因子截面同样可以实现判断因子强度,哦哦这个结果几乎是凑出来的,真实中也许需要各种附加条件,单从原理上考虑,也许是不是近似于Volatility。

1 场景子类之间相关性越小越好,不同的多样性的子类场景会提供稳定性。
2 场景子类与alpha因子相关性越高越好,说明场景对所属个股有更稳定的区分度
3 。。

更新 2019-2-17

动态情景alpha模型再思考


综合理解,情景分层简单将基本就是分类打分,比如静态模型不分类别不分区间,所有因子作为个股未来收益的暴露为个股打分,就会出现不同因子按照各自的性质类别无法得到一个个股准确的分数,比如最糟糕的情况下某个股有一半因子给与了最高分,令一半因子给与了最低分,之后综合出一个平均分,另外从实际测试中也能证明,如果因子数量较多的情况下,几乎不存在所有因子都给与高分的情况,总体是一个偏多分布。而情景分层简单化就是 将个股分为多个场景池,每个场景池内相当于一个静态模型,因为不同池子的个股并不互相重叠,每个场景池的分数将是完全独立,这样就解决了不同类型个股分数互相拆台的问题。在给与不同场景池不同的权重最后就得到了个股相对市场有效场景的分数。

根据自己的理解在参考 【动态情景alpha模型再思考】:

衡量一个情景因子的标准就是该情景下不同区间 alpha因子的差异化程度,假设某因子作为一个场景因子,并且切分为3层,那么alpha因子池中的因子对每个分层的效用基本相同的话,那么就可以认为这场景因子没有切分的必要。但是个人觉得还要考虑场景因子的非线性问题,对于非线性场景的切分使之每个区间增加线性化程度,同样也是有所收益。

情景分层后不再需要因子具有较强的市场覆盖能力,只需要部分局部区间具有有效性。因此对于因子检验将不同与传统静态模型,另外也降低了对因子质量的要求。

情景不同区间个股的比较,假定我们用市值因子作为场景 分为小市值和大市值两个区间,并且分别对2个区间的个股给与分数,如果小市值和大市值都给出2个不同的高分个股,简单方法可以认为两个股具有同等重要性,一个小市值最好,一个大市值最好,然后可以通过市值场景因子与市场回报截面的差异性,比如市值因子的小市值与市场回报有更高的绩效。在给2个股不同权重作为场景加权分。这是我理解的场景带入模型后的切入点。在【动态情景alpha模型再思考】中提出了更细致的要求,alpha因子对于不同场景具有自带的【子区间模型绩效】当然这点可以简单实现也可以复杂实现,取决于子区间模型的计算方式。总体而言我觉得这个要求基本多余,因为从基本的情景矩阵框架看,因子暴露 X 子区间矩阵本身就做到了不同区间的区间绩效加权,在我看来alpha因子之间的权重则更有调整余地。因此是否应该更注重子类区间内alpha因子的绩效权重。而不是场景子区之间的权重。

【动态情景alpha模型再思考】中提出 【alpha/预期收益估计误差】这个概念,个人觉得很关键,因为我确实发现 IC 在某些情况下并不准确,比如 WVAD因子在因子池中很难和其他因子配合(我只是做了少量测试),而且关键是通过对权重分布观察该因子有较强的权重掠夺能力,但对收益的贡献却不高,导致某些组合下加入该因子对组合形成了负贡献。!!!暂时这是个悬而未决的麻烦!!!,在该研报中也没给出比较好的办法,只是提出使用情景模型区分度作为临时解决办法,如果朋友们有更好的办法,还望赐教。

研报中后面基本思路偏向到精英路线,这点与我的期望不符,如研报中精选了3个场景因子并对每个场景因子各自精配了alpha因子组合,因此我只对基本逻辑进行参考,在计算时大多采用 IC_IR来计算绩效,个人觉得这点无需考虑只不过是算法细节问题,至于使用IC还是IR 不过是代码中多加几行的问题,当然个人更倾向于IC. 觉得各种稳定或者精确性加工都会导致原始信息的丢失以及过度拟合的嫌疑并且适用面更窄。包括类似使用分位数加权(对数值排名并转换为分布数) 都是类似情况,但是我不反对在模型最后一级使用类似方法,虽然说不清,但是实验证明最后一级输出用损失性较强的方式汇总分数具有更好的表现。

虽然量化里基本共识都是围绕截面IC 来计算因子绩效,但是这也不是唯一办法,多空组合差以及其各类变种同样有各自优势,但是这样等于IC身兼多职实际并不是最好的办法,上面也说明IC在某些情况下是失效的,其值的极限化程度与未来收益并不具有稳定的直接关系,更细分功能的话,也许波动性更具逻辑性,但是如何使用是个难题。

研报中 基础alpha模型采用了经典IR模型并标准化为分位数,作为情景区间得分。总体是采用回归方式获取情景区间预期收益。觉得方式复杂了些。情景加权用以缺乏不同alpha因子在子区间下的权重,还没想好更简单明确的方式暂时搁置。

总的来说这篇研报开阔了思路小有收获。

全部回复

0/140

量化课程

    移动端课程