
离散选择模型
qms质量管理体系-工会活动方案
2023年3月19日发(作者:夏天的英文单词)离散选择模型(多项logit回归)
第⼀次做离散选择模型的实证研究,感觉有必要对⼀些基础概念和处理⽅法进⾏梳理。
因为已经很熟悉离散选择模型的数学原理了,在这⾥先跳过。等完成论⽂后再进⾏梳理(嘻嘻)
1.基础概念
⼀些可能会在写论⽂时⽤得上的词汇
(1)定义
离散选择模型描述了决策者在不同的Alternative中做作出的选择
(1)决策者(DecisionMaker),即做出选择⾏为的主体;具有个体异质性
(2)选择集(Alternatives):所有可供选择项⽬的加总被解释变量
(3)各个⽅案的属性(AttributesofAlternatives):不同的⽅案属性描述了各个⽅案在不同的维度上可以提供给⼈们的效⽤(Utility)解释
变量
(4)决策准则(DecisionRules)。不同的决策者在做出⽅案选择时的⾏为准则不尽然相同。仍然以上⾯“选择餐厅”的例⼦予以说明:有⼈在
选择餐厅时可能会⽐较的“随意”——随便挑⼀家即可;⽽有的⼈可能会综合利⽤各种信息资源(如“⼤众点评”App)做出⼀个对⾃⼰最为有
利的选择。不⼀样的决策准则会导致不同的选择结果。
(2)Odd
Odds指的是事件发⽣的概率与事件不发⽣的概率之⽐。事件A的Odds等于事件A出现的次数和其它(⾮A)事件出现的次数之⽐;相⽐之
下,事件A的概率等于事件A出现的次数与所有事件的次数之⽐。Odds的对数称之为Logit。
这个讲得挺浅显易懂的:
(2)
2.数据准备
就是数据搜集完成,在跑模型之前,要怎么处理变量,能够使模型回归结果更可靠的⼯作
(1)样本量
a.没有统⼀标准
b.但如果样本量⼩于100,logistic回归的最⼤似然估计可能有⼀定的风险,如果⼤于500则显得⽐较充⾜。
c.⼀般认为,每⼀个⾃变量⾄少要10例结局保证估计的可靠性。注意:这⾥是结局例数,⽽不是整个样本例数。(如果你有7个⾃变量,那⾄少
需要70例研究结局,否则哪怕你有1000例,⽽结局的例数只有10例,依然显得不⾜。)
我有150个样本>>在没有完全重复问卷的情况下最多只能15个⾃变量
(2)⾃变量赋值
疑问:分类、连续ordummy?哪⼀个更好呢?
解答:相同⾃变量以不同形式进⼊MNL模型,所表达的含义不同。我的理解,dummy=分类变量>连续变量
例如体重,如果直接进⾏分析,结果提⽰的是每增加1Kg发⽣某病的危险。⽽现实中多数疾病可能对体重增加1Kg不敏
感,或者我们医务⼈员不关⼼增加1Kg所发⽣的变化,⽽关注的是胖⼦是不是⽐瘦⼦有更⾼的发病风险。
⾄于哑变量和分类变量,则要视变量所想解释的经济学含义⽽定。
例如研究收⼊对出发时间的影响(如出发时间越早,收⼊越低),则⽤分类变量(设置不同时间段,标为1,2,3,4)
⽐较好;
⾃变量和logit如果不是线性关系,最好不要设置成分类变量,转换成dummy再进⼊模型。
如果取值结果与预期相反,注意看看是不是因变量赋值,⼤⼩顺序颠倒
(3)混杂因素(没看懂)
混杂因素⼀般可以通过三个⽅⾯确定:
⼀是该因素(吸烟)对结局(⼼绞痛)有影响;
⼆是该因素(吸烟)在分析因素(基因)中的分布不均衡;
三是从专业⾓度来判断,即该因素不能是分析因素与结局中间的⼀个环节。也就是说,不能是分析因素引起该因素,通过该因素再引起结局。
(4)交互作⽤
交互作⽤有的书中也叫效应修饰,是指在该因素的不同⽔平(不同取值),分析因素与结局的的关联⼤⼩有所不同。在某
⼀⽔平上(如取值为0)可能分析因素对结局的效应⼤,⽽在另⼀个⽔平上(如取值为1)可能效应⼩。
我的理解:以受教育⽔平为例,⽂盲的取值为0,⼤专以下⽂凭为1。在⼀般问卷中不会涉及⽂盲这个选项,所以这时分类序数变量应从1开始。
(5)变量相关性
LR中特征强相关,不会影响最优性,但会造成权重的数值解不稳定。
(6)内⽣性问题
可以参考⽂献
⼆值选择模型内⽣性检验⽅法_步骤及Stata应⽤袁微
3.模型估计