1、实际问题抽象成数学问题:这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。
2、获取数据:获取数据包括获取原始数据以及从原始数据中经过特征工程从原始数据中提取训练、测试数据。机器学习比赛中原始数据都是直接提供的,但是实际问题需要自己获得原始数据。“ 数据决定机器学习结果的上限,而算法只是尽可能的逼近这个上限”,可见数据在机器学习中的作用。总的来说数据要有具有“代表性”,对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。 对评估数据的量级,样本数量、特征数量,估算训练模型对内存的消耗。如果数据量太大可以考虑减少训练样本、降维或者使用分布式机器学习系统。
3、特征工程:特征工程包括从原始数据中特征构建、特征提取、特征选择、特征工程做的好能发挥原始数据的最大效力,往往能够使得算法的效果和性能得到显著的提升,有时能使简单的模型的效果比复杂的模型效果好。数据挖掘的大部分时间就花在特征工程上面,是机器学习非常基础而又必备的步骤。数据预处理、数据清洗、筛选显著特征、摒弃非显著特征等。训练模型、诊断、调优模型诊断中至关重要的是判断过拟合、欠拟合,常见的方法是绘制学习曲线,交叉验证。通过增加训练的数据量、降低模型复杂度来降低过拟合的风险,提高特征的数量和质量、增加模型复杂来防止欠拟合。诊断后的模型需要进行进一步调优,调优后的新模型需要重新诊断,这是一个反复迭代不断逼近的过程,需要不断的尝试,进而达到最优的状态。
4、模型验证、误差分析:通过测试数据,验证模型的有效性,观察误差样本,分析误差产生的原因,往往能使得我们找到提升算法性能的突破点。误差分析主要是分析出误差来源与数据、特征、算法。
5、模型融合:提升算法的准确度主要方法是模型的前端(特征工程、清洗、预处理、采样)和后端的模型融合。在机器学习比赛中模型融合非常常见,基本都能使得效果有一定的提升。
6、上线运行:这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向,模型在线上运行的效果直接决定模型的成败。 不单纯包括其准确程度、误差等情况,还包括其运行的速度(时间复杂度)、资源消耗程度(空间复杂度)、稳定性是否可接受。
延伸阅读
怎么教宝宝学习走路
1、宝宝学走路主要是掌握平衡,学会把握重心,让自己可以协调的走起来。宝宝十个月的时候一般就可以扶着东西横着走了,这个时候妈妈们要及时的教宝宝学习走路。妈妈们可以用两只手或是一只手拉着宝宝的小手,让他蹒跚学步,也可以在后面扶着宝宝的腋下,让宝宝学习走路,更加可以使用一条毛巾在后面拉着宝宝学走路。当宝宝可以走几步的时候,妈妈最好是在前面逗引宝宝,让宝宝向自己走来,这个时候的宝宝常常可以跌跌撞撞的跑入妈妈的怀抱中。
2、宝宝学走路是宝宝长大必须要经历的一个阶段。宝宝学习走路的时候,安全要放在第一位,避免宝宝跌倒,一定要特别的注意寻找一个比较安全的环境,地面需要平整,周围不要有尖锐的东西,也不要有容易绊倒孩子的东西。同时宝宝的鞋子也一定要合脚,宝宝的衣服最好是保持轻便。
3、在教给小宝宝行走的过程中,一定要特别的注意,尽量不要让宝宝摔倒。即使宝宝摔倒也不要放弃教他走路。虽然抱着是安全的,但是不可能抱一辈子,一定要让宝宝积极大胆的学习走路才好。
如何引导三岁孩子学习
1、早读:每天和他一起学习一遍故事,故事要简短。当你讲故事时,要注意添加一些形容词或成语来丰富他的语言能力。并且试着让他来复述这个故事,或者让他自己来编辑这个故事,无论他在编什么,家长都要鼓励他也可以和宝宝一起谈论,并帮助他完成编写。
2、幼儿园或早教课程:和宝宝一起复习学到的儿歌,唐诗,数字等其他知识。
3、增加知识:平时可以在路上看到的任何东西都可以教给他,增加他的知识面和认知面,例如各种动物和植物、以及建筑物的名称,各种商店的名称,汽车的名称,以及观看天空并告诉他一些天文知识。
为什么小学不学习历史地理
从小全面的培养孩子的想法是正确的,但是小学不学历史和地理也是有原因的,原因如下:
1、现在的小学生学习的科目不在是简单的语文、数学、英语了这三门学科,除了这些,他们课外还要学习音乐、美术、手工等一系列的课外兴趣课程。如果在小学就要学历史和地理,那么小学生的课业负担又会重许多,所以,小学不学历史和地理是一个正确的选择。
2、历史和地理这两门学科要求学习者的学习素质较高,小学阶段是培养学生学习素质的时期,应该等学生有了一定的学习素质之后再开设历史和地理这两门学科,这样可以让学生更加容易进入学科的学习环境,更好的学习知识。