过拟合的解决办法有()。
A.增加训练集的数据量
B.正则化方法
C.增加样本的数量
D.增加训练的次数
A.增加训练集的数据量
B.正则化方法
C.增加样本的数量
D.增加训练的次数
第3题
A.级别划分较多的属性不会影响模型效果
B.在某些噪音较大的分类或回归问题上不会过拟合
C.每次学习使用不同训练集,一定程度避免过拟合
D.能够处理高纬度的数据,并且不做特征选择
第7题
A.第1个模型的训练误差大于第2个、第3个模型
B.最好的模型是第3个,因为它的训练误差最小
C.第2个模型最为“健壮”,因为它对未知样本的拟合效果最好
D.第3个模型发生了过拟合
第9题
对(许多美国工人可用的)401(k)养老金计划的出现是否提高了净储蓄,吸引了大量研究兴趣。数据集401KSUBS.RAW包含了有关净金融资产(nettfa)、家庭收入(ic)、是否有资格参与401(k)计划的二值变量(e401k)和其他几个变量的信息。
(i)样本中有资格参与一个401(k)计划的家庭比例是多少?
(ii)估计一个用收入、年龄和性别解释401(k)资格的线性概率模型。包括收入和年龄的二次项,并以通常形式报告结论。
(iii)你认为401(k)资格独立于收入和年龄吗?性别呢?请解释。
(iv)求第(ii)部分中估计的线性概率模型的拟合值。有小于0或大于1的拟合值吗?
(v)利用第(iv)部分中的拟合值e401k1,定义e401k1在e401k≥0.5时取值1,并在2e401k<0.5时取值0。在9275个家庭中,预计有多少家庭有资格参与401(k)计划?
(vi)对于没有资格参加401(k)的5638个家庭,利用预测值e401k1,预测其中有多大比例没有401(k)?对于有资格参加401(k)的3637个家庭,其中有多大比例的家庭有401(k)?(如果你的计量经济软件具有“制表”命令更好。)
(vii)总正确预测比约为64.9%。给定第(vi)部分的答案,你认为这是模型好坏的一个完备描述吗?
(viii)在线性概率模型中增加一个解释变量pira。其他条件不变,若一个家庭有某人拥有个人退休金账户,一个家庭有资格参与401(k)计划的估计概率会提高多少?在10%的显著性水平上,它统计显著异于0吗?
第10题
A.负抽样
B.欠抽样
C.假抽样
D.伪抽样
第11题
A.L2范数可以防止过拟合,提升模型的泛化能力。但L1正则做不到这一点
B.L2正则化标识各个参数的平方的和的开方值
C.L2正则化有个名称叫“Lassoregularization”
D.L1范数会使权值稀疏