1.数据采集与预处理:FlumeNG实时日志采集系统,支持在日志系统中定制各种数据发送方,用于采集数据;Zookeeper是一个分布式开源的分布式应用协调服务,提供数据同步服务。
2.数据存储:Hadoop作为开源框架,是专门为离线和大规模数据分析而设计的,HDFS作为其核心存储引擎,已经广泛应用于数据存储。HBase是一个分布式、面向列的开源数据库,可以认为是hdfs的封装,其本质是数据存储和NoSQL数据库。
3.数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算。
4.数据查询分析:Hive的核心工作是将SQL语句翻译成MR程序,MR程序可以将结构化数据映射到一个数据库表中,并提供HQL(HiveSQL)查询功能。Spark支持内存分布式数据集,不仅可以提供交互式查询,还可以优化迭代工作负载。
5.数据可视化:对于一些BI平台,将分析得到的数据可视化,以指导决策服务。