《Spark机器学习进阶实战》——2数据分析流程和方法
第2章数据分析流程和方法
夫物芸芸,各复归其根。
—《道德经》第十六章
万物纷纷芸芸,各自返回它的本根。深入本根才能更好地认识自然规律,符合自然的“道”。
数据驱动时代,无论你的工作内容是什么,掌握一定的数据分析能力,都可以帮你更好地认识世界,更好地提升工作效率。数据分析除了包含传统意义上的统计分析之外,也包含寻找有效特征、进行机器学习建模的过程,以及探索数据价值、找寻数据本根的过程。
在本章中,我们首先对数据分析的概念进行概述,随后围绕数据讲解数据分析的流程,包括业务调研、明确目标、数据准备、特征处理、模型训练与评估、输出结论等,在此基础上介绍数据分析的基本方法,最后使用Spark开发环境构建简单的数据分析示例应用。
2.1 数据分析概述
随着商业智能(Business Intelligence,BI)的发展,实现数据的商业价值,并通过数据驱动企业的商业化、信息化建设显得越来越重要,为了获得更好的数据分析结果,在实践中抽象了分析数据的方法和流程,这就是数据分析(Data Analysis,DA)。
传统的数据分析是指用适当的统计分析方法对收集来的大量数据进行分析、提取有用信息并形成结论,而对数据加以详细研究和概括总结的过程,是数据价值挖掘的基础。随着数据分析的发展,数据分析扩展成一个包含数据预处理、特征处理和数据建模,使用机器学习方法进行数据挖掘的过程。
数据分析以分析为骨骼、数据为血肉,按照一定的方法有理有据组织结论,数据分析架构如图2-1所示,数据分析流程以调研为起点,以结论为终点,以方法为支撑,围绕数据进行分析。
图2-1 数据分析架构
数据分析的基本方法以统计为主,只有熟悉业务,经过合理的数据分析,才能提供有价值的分析结论和建议。数据分析重调研、轻方法,调研要亲临一线去询问、了解实际情况,切忌数据空想,数据分析要言之有物,行之有效。
- 点赞
- 收藏
- 关注作者
评论(0)