当前位置: 足球买球怎么买 > 足球买球怎么买卫浴厂家动态 > 正文

足球买球怎么买卫浴厂家动态 Hadoop,大数据离不开它

作者:admin 发布:2021-07-19 00:48 | 点击数:

 

本文转载自微信公多号「虞大胆的叽叽喳喳」,作者虞大胆 。转载本文请有关虞大胆的叽叽喳喳公多号。

搭建数仓,hadoop固然有点落伍,但照样不可或缺的。本文描述下单机版的hadoop运作机制。

HDFS是Google GFS的开源实现,是一个分布式文件编制,是大数据技术的基石,直接上架构图:

主要包含Namenode和Datanodes,MapReduce主要就是在Datanodes进走并走计算。

core-site.xml:足球买球怎么买卫浴厂家动态

<property>     <name>fs.defaultFS</name>     <value>hdfs://localhost:8001</value> </property> <property>     <name>hadoop.tmp.dir</name>     <value>/root/hadoop-3.2.2/tmp</value> </property

其中8001端口就代外hdfs的根路径,另外hdfs-site.xml配置参数也专门多。

比如dfs.replication外示hdfs副本集,单机版就竖立1;dfs.namenode.http-address是NameNode web管理地址,能够查望hdfs的一些情况;dfs.datanode.address是DataNode的端口;dfs.namenode.name.dir和dfs.namenode.data.dir外示Namenode和Datanodes的存储现在录,默认继承于hadoop.tmp.dir值。

倘若修改现在录有关的参数,必要格式化hdfs:

$ bin/hdfs namenode -format 

经验就是提出删除dfs.namenode.data.dir下的文件,再格式化。

一旦hdfs可用,操作它们就像操作本地文件相通:

#创建登陆用户的根现在录,有了根现在录,则不必要指定hdfs://前缀 $ ./bin/hdfs dfs -mkdir  -p  "hdfs://localhost:8001/user/root" $ ./bin/hdfs dfs -mkdir  -p  test2  $ ./bin/hdfs dfs -put ~/test.log hdfs://localhost:8001/test $ ./bin/hdfs dfs -put ~/test.log test2  $ ./bin/hdfs dfs -ls test2 $ ./bin/hdfs dfs -cat  test2/test.log 

接下往说说MapReduce,主要包含map和reduce过程足球买球怎么买卫浴厂家动态,另外不克遗忘shuffle,map相对于从hdfs dataNodes处理数据,然后shuffle将相有关的数据交给reduce进走处理。

运走MapReduce过程很浅易:

$ bin/hdfs dfs -mkdir input $ bin/hdfs dfs -put etc/hadoop/*.xml input # 将mapreduce义务实走的效果放入 hdfs output 现在录中 $ bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar grep input output 'dfs[a-z.]+'  bin/hdfs dfs -cat output/* 

早期的MapReduce即包含计算框架,又包含调度框架,比较肥胖,比如想在现在集群运走另外一栽计算义务,就不方便了,于是后来从MapReduce中将调度框架抽掏出来,命名为Yarn,如许不管是MapReduce照样Spark只要相符Yarn接口定义,就能被Yarn调度,MR和Spark专做做分布式运算,相等于解耦了。

Yarn的架构图如下:

主要包括ResourceManager和NodeManager,另外为了分布式运算NodeManager清淡和HDFS的DataNodes运走在一首。

ResourceManager主要包含Scheduler和ApplicationsManager足球买球怎么买卫浴厂家动态。

修改yarn-site.xml:

<property>     <name>yarn.nodemanager.aux-services</name>     <value>mapreduce_shuffle</value> </property>  <property>     <name>yarn.resourcemanager.webapp.address</name>     <value>0.0.0.0:7088</value> </property

其中,mapreduce_shuffle外示调度MapReduce义务,7088 是Yarn的Web管理地址;自然Yarn还有许多的参数。

修改 mapred-site.xml:

<property>     <name>mapreduce.framework.name</name>     <value>yarn</value> </property

mapreduce.framework.name的值yarn外示MapReduce行使Yarn调度。

然后实走yarn调度:

$ bin/yarn jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar grep input output 'dfs[a-z.]+' 

只是将上面的hadoop修改为yarn,不过效果测试,不管怎么写,yarn都是效果的,经由过程yarn Web UI能望出来。

另外吾是以root运走的,于是sbin下的一些sh文件要修改:

HDFS_DATANODE_USER=root HDFS_DATANODE_SECURE_USER=root HDFS_NAMENODE_USER=root HDFS_SECONDARYNAMENODE_USER=root 

末了的启动命令:

$ ./sbin/start-all.sh $ ./sbin/stop-all.sh 

参考链接:

https://kontext.tech/column/hadoop/265/default-ports-used-by-hadoop-services-hdfs-mapreduce-yarn

https://hadoop.apache.org/docs/r3.2.2/hadoop-project-dist/hadoop-common/SingleCluster.html

【编辑选举】足球买球怎么买卫浴厂家动态

一张图注释晓畅大数据技术架构,堪称阿里的中央机密 大数据分析工具必须具备的10个基本属性 造就强盛数据产业势在必走 幼白入门大数据,这一篇就够了 kylin大数据分析从基础与实战