分享
AB实验与非实验场景分别讨论【关键特征】阈值选择
输入“/”快速插入内容
AB实验与非实验场景分别讨论【关键特征】阈值选择
飞书用户3193
2024年2月20日修改
举个例子
今天这篇文章整体还是偏干货硬核,先举个例子,让大家有个初步概念:
我们想研究 【上学】对【收入】的影响:
【上学】只是一个概括变量因素,细化来看,可能拆解为以下可量化的特征
是否上学
上学年限
所在区域(中/西/东部)
然后我们得到一个基础的多元线性回归模型,
y(收入) = d(常数项)+ a * 是否上学+ b * 上学年限 + c * 所在区域
我们怎么研究这个问题?
1、所有特征能做ab严格随机分类的场景,我们将关键特征设置为【
treatment】做实验
【是否上学】:分类变量
上学为实验组,不上学为对照组,得到处理效应
实验组
对照组
策略方案
上学
不上学
人均收入
【上学年限】:连续变量
对照组
实验组
实验组
实验组
实验组
策略方案
3
4
5
6
..
人均收入
当年我们也可以根据实际意义转换为:
对照组
实验组
策略方案
9年义务教育
12年教育
人均收入
当我们在以上两个实验中,希望交叉看清以下两个问题:
东部上学对收入的影响 会比 西部更大?
东部接受12年教育 对收入的影响 会比 西部接受12年教育对收入的影响 大?
也就是我们希望看清在不同的【所在区域】特征水平下,
【
treatment】对 y 的影响是否有所差异
了解因果推断的,转换下语义:就是ab只看清了ATE, 我们还希望看清CATE ,就需要引入异质性评估
2、 不能做ab分流,只能用观测数据的场景 ,我们采用多元线性回归