1、问题模型化能力
机器学习的*终目标是实现一个问题的效益,所有的实际问题*终都会转化为一个数据科学优化问题,那么你需要有更好的行业背景了解.. 虽然大量的数据可以大大降低您对行业熟悉度的要求,但数据往往并不都是海量的,熟悉的行业背景知识可以大大提高效率。
2,复杂的数据结构的能力
喂入算法是数据是设计好的,结构简单化了的数据,但实际进行数据信息往往有各种经济来源,如图像处理数据、文本分析数据、空间、事件时间序列。..故而可以合理的结构化数据的能力是很有必要的。
具备3.数据量、数据结构和数据预处理能力
1)数据量VS异常值
所谓的异常值,遗漏值,是不是,也不是一个错误值,也是真实情况的体现,原因是数据异常,因为我们可以使用的数据量不够大,不能**地表示这样的数据的整体分布。当足够大,这样,当数据量,无异常异常值,增强了数据的覆盖,如个性化的推荐。
2)数据平衡VS采样
如果企业数据进行分布均衡,应尽可能可以避免采样;因为中国上下采样都有其不利因素影响,上采样不得当,使得信息数据中存在大量相同的数据,会导致网络模型过拟合;下采样则必然减少相关数据信息量。
当数据不平衡时,常用的处理方法有:
简陋复制少量的样品的样品中 - 易于过度拟合;
调整进行权重——其效果分析基本近似于上一种;
随机森林,使每棵树训练样本平衡;
观察导致不均匀的样品因素,或**因素下进行分类,然后分别培养模式。
4、理解中国特征、并可以进行有效转换特征的能力
在海量数据特征中,必须有很多特征具有相关性,往往通过缩小维度有效整合相关数据,从而防止过度拟合,也减轻了计算机的负担;
转换后特征可以更好地预测。作为连续变量离散化,重新分类离散间隔。 ...
也可对特征进行重要性排序,绘制特征数量不断增加与模型可以预测分析结果的关系曲线。
能力5.选择合适的算法.
1)算法不是越复杂越好,记住:相同的数据,模型拟合效果,当所有类似的算法的复杂度较小时,较少不必要的麻烦,可解释性相对较高。
2) 在相同算法下,训练的效果会随着信息数据的增加而增加,但超过我们一定影响程度后,训练教学效果将趋于稳定,此时企业应该充分考虑进行更换复杂度较高的算法。
合理算法的数据可以参考下图..
机器学习解析八个核心
6、优化经济损失进行函数的能力
当数据分布不均,或需要为某一类别增加权重时,需要调整损失函数的权重参数,或增加罚项.. 通过在特定类型的勘误表中增加更多的惩罚来解释它们的权重
7,能力模型训练和模型集成
想要训练出我们一个好的模型进行参数也不简单,*好对算法设计参数有较深的理解。可以通过使用网络栅格数据搜索(GridSearchCV)辅助调参,但真正能够得到的好的参数,还需教师要与你长期的经验分析相结合。
有时单个模型不能很好地拟合数据。 此时,可以融合多个模型进行训练。 有Boosting、Baging两种常见的模型融合。 典型的Adaboost随机森林
8,错误和经验泛化误差之间的区别
训练集上的效果我们不能代表中国实际教学效果,要得到好的实际进行预测作用效果,及减小泛化误差。交叉验证企业可以通过实现自己这一研究目的,不过*好还要准备一套系统数据来验证。通俗理解:交叉验证是高考前的各种模考,而*终测试数据的结果就是一个高考结果。
了解更多安川机器人