Hadoop安装

2020-01-01 | 阅读：次

1.hadoop伪分布式的安装

1.jdk的安装

1.安装jdk
jdk的安装
2.配置jdk环境变量
jdk环境变量配置

2.免秘钥登录配置

配置目的：避免访问节点时每次都需要输入账号密码。
免秘钥配置

配置成功后会在.ssh目录下多一个公钥的文件。

3.hadoop环境变量配置

hadoop环境变量配置

4.hadoop的jdk环境变量

修改hadoop-env.sh、mapred-env.sh、yarn-env.sh的jdk配置，不用它默认的。
hadoop的jdk环境变量

5.配置主节点

在core-site.xml配置主节点。

6.配置副本数

在hdfs-site.xml中配置副本数，因为是伪分布式安装，所以副本只有一个。

7.配置从节点

在slaves文件中配置从节点，因为伪分布式安装，所以从节点也是服务器自己。

8.配置secondaryNameNode

在hdfs-site.xml中配置。
配置secondaryNameNode

9.配置临时目录

在core-site.xml中配置临时目录，用来存放nameNode，dataNode和nameSecondary的文件。如nameNode中存放edit_log，fsimage等；dataNode存放上传的文件等。

10.格式化生成fsimage

格式化生成fsimage
格式化成功后会在临时目录下生成dfs目录和其子目录name的子目录中生成fsimage文件。

11.启动集群

会先后启动nameNode、dataNode、secondaryNameNode。
启动集群

12.可视化界面

登录地址：http://192.168.146.132:50070（登录不上，关闭Linux的防火墙试试）。
可视化界面

13.文件上传hadoop

创建文件上传的路径。

上传文件：hdfs dfs -put
上传过程中,可视化界面的显示如下：

上传完成可以看到，可视化界面中有两个block，因为系统默认一个block的大小是128M，而我上传的文件是170M，所以分成了两块。

2.配置的代码

1.免秘钥配置

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

2.core-site.xml

    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ip(或者别名):9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/var/myfile/hadoop/local</value>
    </property>

3.hdfs-site.xml

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>ip(或者别名):50090</value>
    </property>