里边的包下载地址需要用户名,密码,cdh包,本想照着此书搞个本地环境,但是因为包下载问题,不过里边好多的点都是提到了,可参考。最后我自己网搜了数篇博文用了一工作日本地大体搞了一套简版,要说的是Hadoop生态坑好多,每个人搞完都有一套整理分享但不一定好用,所以知道大概自己去尝试。好了接下来要结合公司的作业程序来编码了
浏览了一遍,三分之一是代码,看的时候可以暂时略过,了解了大名鼎鼎的Apache基金会的分布式计算框架Hadoop和内存计算框架Spark的概念和之间的关系,Hadoop是一个总的解决方案,而Spark目前来看是其中一个可替换Map Reduce的负责计算的模块,两者可以一起使用,不存在代替的问题。下一步要做的就是和业务结合起来,真正把这个成熟的技术用起来,提高工作中的效率。
粗浅入门的介绍,对初学者不够形象,对资深者无用,对有了解的用来复习巩固。
每一个章节开头都有要点的概括和框图,整体知识点一目了然,不错
yarn是趋势,hdp整体做好生态,storm/spark已经完成了使命,以后flink更实用。