更新時間:2022年07月15日10時50分 來源:傳智教育 瀏覽次數:
基于Hadoop的可擴展性,它能夠便捷地單一服務器向上千臺服務器進行擴展,上節內容我們講到了Hadoop的生態系統組件,本節我們將把剩余的生態組件介紹完畢。
1.HBase分布式數據庫
HBase是Google Bigtable克隆版,它是一個針對結構化數據的可伸縮、高可靠、高性能、分布式和面向列的動態模式數據庫。和傳統關系數據庫不同,HBase采用了BigTable的數據模型:增強的稀疏排序映射表(Key/Value),其中,鍵由行關鍵字、列關鍵字和時間戳構成。HBase提供了對大規模數據的隨機、實時讀寫訪問,同時,HBase中保存的數據可以使用MapReduce來處理,它將數據存儲和并行計算完美地結合在一起。
2.Zookeeper分布式協調服務
Zookeeper是一個分布式的,開放源碼的分布式應用程序協調服務,是Google的Chubby一個開源的實現,是Hadoop和HBase的重要組件。它是一個為分布式應用提供一致性服務的軟件,提供的功能包括配置維護、域名維護、分布式同步、組服務等用于構建分布式應用,減少分布式應用程序所承擔的協調任務。
3.Hive基于Hadoop的數據倉庫
Hive是基于Hadoop的一個分布式數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,將SQL語句轉換為MapReduce任務進行運行。其優點是操作簡單,降低學習成本,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
9.Flume日志收集工具
Flume是Cloudera提供的一個高可用,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統文件中定制各類數據發送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接收方(可定制)的能力。