本書結合理論和實踐,由淺入深,全方位介紹了Hadoop這一高性能的海量數據處理和分析平臺。全書5部分24章,第Ⅰ部分介紹Hadoop基礎知識,主題涉及Hadoop、MapReduce、Hadoop分布式文件系統、YARN、Hadoop的I/O操作。第Ⅱ部分介紹MapReduce,主題包括MapReduce應用開發;MapReduce的工作機制、MapReduce的類型與格式、MapReduce的特性。第Ⅲ部分介紹Hadoop的運維,主題涉及構建Hadoop集群、管理Hadoop。第Ⅳ部分介紹Hadoop相關開源項目,主題涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三個案例,分別來自醫療衛生信息技術服務商塞納(Cerner)、微軟的人工智能項目ADAM(一種大規模分布式深度學習框架)和開源項目Cascading(一個新的針對MapReduce的數據處理API)。

本書是一本專業、全面的Hadoop參考書和工具書,闡述了Hadoop生態圈的新發展和應用,程序員可以從中探索海量數據集的存儲和分析,管理員可以從中了解Hadoop集群的安裝和運維。


根據中華人民共和國國家版權局相關法規,本站不提供該PDF電子版書籍
您可以進入交流社群中繼續尋找資料或購買正版書籍

Linux交流群

技術交流社群:http://www.ouxnnm.live/club

Linux書籍在線閱讀:http://www.ouxnnm.live/chapter-00.html

本文原創地址:http://www.ouxnnm.live/hadoop-guidance-fifth.html編輯:劉遄,審核員:暫無