《Spark机器学习进阶实战》——2数据分析流程和方法

举报
华章计算机 发表于 2019/05/31 00:57:49 2019/05/31
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第2章,第2.1节,作者是马海平、于俊、吕昕、向海。

第2章数据分析流程和方法

夫物芸芸,各复归其根。

—《道德经》第十六章

万物纷纷芸芸,各自返回它的本根。深入本根才能更好地认识自然规律,符合自然的“道”。

数据驱动时代,无论你的工作内容是什么,掌握一定的数据分析能力,都可以帮你更好地认识世界,更好地提升工作效率。数据分析除了包含传统意义上的统计分析之外,也包含寻找有效特征、进行机器学习建模的过程,以及探索数据价值、找寻数据本根的过程。

在本章中,我们首先对数据分析的概念进行概述,随后围绕数据讲解数据分析的流程,包括业务调研、明确目标、数据准备、特征处理、模型训练与评估、输出结论等,在此基础上介绍数据分析的基本方法,最后使用Spark开发环境构建简单的数据分析示例应用。

2.1 数据分析概述

随着商业智能(Business Intelligence,BI)的发展,实现数据的商业价值,并通过数据驱动企业的商业化、信息化建设显得越来越重要,为了获得更好的数据分析结果,在实践中抽象了分析数据的方法和流程,这就是数据分析(Data Analysis,DA)。

传统的数据分析是指用适当的统计分析方法对收集来的大量数据进行分析、提取有用信息并形成结论,而对数据加以详细研究和概括总结的过程,是数据价值挖掘的基础。随着数据分析的发展,数据分析扩展成一个包含数据预处理、特征处理和数据建模,使用机器学习方法进行数据挖掘的过程。

数据分析以分析为骨骼、数据为血肉,按照一定的方法有理有据组织结论,数据分析架构如图2-1所示,数据分析流程以调研为起点,以结论为终点,以方法为支撑,围绕数据进行分析。

image.png

图2-1 数据分析架构

数据分析的基本方法以统计为主,只有熟悉业务,经过合理的数据分析,才能提供有价值的分析结论和建议。数据分析重调研、轻方法,调研要亲临一线去询问、了解实际情况,切忌数据空想,数据分析要言之有物,行之有效。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。