week3_1
版权申明:本文为原创文章,转载请注明原文出处
week3_1
为什么是ML策略
优化深度学习时考虑的策略
帮助我们选择更好的算法
正交化
机器学习可以选择的调整方法有很多,就比如超参数的调节就有很多
正交化:调整最有效的参数,使各参数之间的调节更加独立化
有四个问题,对应相应的解决方法,问题一:更大的数据集或者Adam优化算法 问题二:正则化或者更大的训练集 问题三:更大的验证集 问题四:改变成本函数等
单一数字评估指标
用一个数字评估告诉我更换新方法之后的性能是否提升
一种方法是查看算法的准确率:
- 查全率(recall):真正为真的值有多少被预测出来了
- 查准率(precision):预测为真的值中真正为真的值所占比例
- 有一个问题就是查全率高的不一定查准率高,查准率高的可能查全率低
由上面的评估指标推出了F1分数,即查全率和查准率的平均值 F1=2/(1/P+1/R) (调和平均数)
这个评估就是在交叉验证集上做的
满足和优化指标
要把所有考虑的指标集合成一个实数并不容易
优化指标:尽量做到最好
满足指标:达到某个范围
训练 _ 开发 _ 测试集划分
开发集和测试集最好都来自同一分布
设置开发集和单一数字评估指标,朝着一个目的出发
开发集合测试集的大小
数据量越多,训练集的集合占比就可以越大,开发集和测试集占比越小,开发集和测试集往往不需要一直增大,足够大就可以了
很多时候没有测试集,人们直接在开发集上进行迭代,但是人们往往叫他测试集
什么时候该改变开发_测试集和指标
理解人的表现
将人的最好表现设置为估计贝叶斯错误率 但是一般也和你这个系统的最终目的有关
可避免偏差是min(贝叶斯错误率和测试集之间的差,测试集和开发集之间的差)
You need to set
install_url to use ShareThis. Please set it in _config.yml.


