大数据的核心技术有哪些？-991灵签网

大数据的核心技术有哪些？

大数据技术体系庞大复杂，基础技术包括数据采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。

1.数据采集与预处理:FlumeNG实时日志采集系统，支持在日志系统中定制各种数据发送方，用于采集数据；Zookeeper是一个分布式开源的分布式应用协调服务，提供数据同步服务。

2.数据存储:Hadoop作为开源框架，是专门为离线和大规模数据分析而设计的，HDFS作为其核心存储引擎，已经广泛应用于数据存储。HBase是一个分布式、面向列的开源数据库，可以认为是hdfs的封装，其本质是数据存储和NoSQL数据库。

3.数据清洗:MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算。

4.数据查询分析:Hive的核心工作是将SQL语句翻译成MR程序，MR程序可以将结构化数据映射到一个数据库表中，并提供HQL(HiveSQL)查询功能。Spark支持内存分布式数据集，不仅可以提供交互式查询，还可以优化迭代工作负载。

5.数据可视化:对于一些BI平台，将分析得到的数据可视化，以指导决策服务。