【hadoop】部署hadoop全分布模式

hadoop全分布模式

全分布模式特点

真正的分布式环境，用于生产
具备Hadoop的所有功能：HDFS、Yarn

部署全分布模式

在三台虚拟机上面进行部署

准备工作

1、关闭防火墙（略）

systemctl stop firewalld.service
systemctl disable firewalld.service

2、设置主机名

使用xshell工具，对三台虚拟机同时进行操作

vi /etc/hosts

3、免密码登录
ssh-keygen -t rsa 产生自己的公钥和私钥

将自己的公钥都拷贝给对方

ssh-copy-id -i .ssh/id_rsa.pub root@bigdata112
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata113
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata114

验证一下，都不需要密码

4、jdk安装（略）

5、同步时间

6、解压和设置环境变量

每台都需要配置环境变量，另外两台虚拟机bigdata113和bigdata114则不需要解压。

操作详细见在linux上设置Hadoop的环境变量

准备工作已经完成！下面进入正式的部署。

正式配置

hadoop-env.sh

路径：/root/training/hadoop-2.7.3/etc/hadoop（$HADOOP_HOME/etc/hadoop）

更改第25行 export JAVA_HOME=/root/training/jdk1.8.0_181

hdfs-site.xml

进入 /root/training/hadoop-2.7.3/etc/hadoop/ 路径找到 hdfs-site.xml 文件进行编辑。

vi hdfs-site.xml

将下面xml代码添加该文件

<!--数据块的冗余度，默认是3-->
<!--一般来说，数据块冗余度跟数据节点的个数一致，最大不超过3-->
<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>

<!--禁用了HDFS的权限检查-->
<property>
	<name>dfs.permissions</name>
	<value>false</value>
</property>

core-site.xml

需要在hadoop目录下，先创建出tmp文件，作为HDFS对应的操作系统目录。

mkdir /root/training/hadoop-2.7.3/tmp

编辑操作与上面文件相同，则不演示。

<!--配置NameNode的地址-->
<!--9000是RPC通信的端口-->
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://bigdata112:9000</value>
</property>

<!--HDFS对应的操作系统目录-->
<!--默认值是Linux的tmp目录-->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/root/training/hadoop-2.7.3/tmp</value>
</property>

mapred-site.xml

这个文件默认没有，需要我们先复制

cp mapred-site.xml.template mapred-site.xml

<!--配置MapReduce运行的框架是Yarn-->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

yarn-site.xml

<!--配置ResourceManager的地址-->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>bigdata112</value>
</property>

<!--MapReduce运行的方式是洗牌-->
<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>

slaves

slaves中指定从节点的地址，将localhost改成bigdata113 bigdata114

对NameNode进行格式化

执行下面这条命名

hdfs namenode -format

成功则出现下面这句话。

复制到另外两台虚拟机

把bigdata112上的整个hadoop目录复制到bigdata113和bigdata114上面
先进入/root/training目录，执行下面两句完成复制。

scp -r hadoop-2.7.3/ root@bigdata113:/root/training
scp -r hadoop-2.7.3/ root@bigdata114:/root/training

启动

在bigdata112上面启动集群

start-all.sh

对部署是否成功进行测试

1、准备数据

2、将本地文件上传到hdfs

3、执行wordcount程序

进入/root/training/hadoop-2.7.3/share/hadoop/mapreduce/

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output/wc

4、查看结果

hdfs dfs -ls /output/wc
hdfs dfs -cat /output/wc/part-r-00000

5、停止集群

 stop-all.sh

测试完成！部署成功！！

css魔法真名,CSS魔法（二）

# 文档类型 # 字符集 # 换行标签 # div span标签后代选择器子代选择器 > 交集选择器 div.one{ } 并集选择器行内元

如何让自动化测试框架更自动化？

一、引言对于大厂的同学来说，接口自动化是个老生常谈的话题了，毕竟每年的MTSC大会议题都已经能佐证了，不是大数据测试，就是AI测试等等（越来越高大上了）。不可否认这些专项的方向是质量智能化发展的方向，但是凡事都遵循2/8定律，80%的从事软件测试的同学或许对这些并不感冒

如何打开并且配置vscode的setting.json文件

文章目录前言

决策树处理回归任务

from sklearn.tree

说说如何借助webpack来优化前端性能？

文章目录如何优化？

python抓取手机号码_Python实战计划学习笔记:爬取手机号

这次运用数据来存储，并从中提取数据成果展示

java源码解读之HashMap

package java.util; import java.io.IOException; import java.io.InvalidObjectException; import java.io.Serializable;

Kubernetes资源调度

Kubernetes资源调度 1. 深入理解Pod对象：调度创建一个Pod的工作流程Pod中影响调度的主要属性资源限制对Pod调度

mongodb命令行group分组和java代码中group分组

group分组统计是数据库比较常用的功能，mongodb也不例外。不过相对于普通的增删改查，group操作就略微麻烦一些，这里对group在shell中的操作、使用java原生代码操作以及集成spring进行操作进行一个简单的归纳总结，分组的途径和方法应该都

软件成分分析（SCA）详述

一、SCA是什么？今天的软件开发普遍遵循敏捷实践，发布和部署周期都很短这导致开发团队非常依赖开源来加速创新迭代速度。因此，对团队项目中包含的每个开源组件进行跟踪非常重要，这样可以避免法律不合规的风险，并保持强大的安全态势。在DevSecOps环境中，这种跟踪必须集成到SD