Hadoop实验一记录

虚拟机环境准备

账户设置:采用虚拟机原有设置 没有新建账号

环境变量设置

1
2
3
4
5
6
7
8
sudo vi ~/.bash_profile

PATH=$PATH:$HOME/bin
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/bin/java #需要查询本地Java安装地址 export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/bin/java //需要查询本地Java安装地址

export HADOOP_HOME=/home/hadoop/hadoop_installs/hadoop-2.7.7
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
export CLASSPATH=$JAVA_HOME/lib:.

下载安装ssh 确认启动

(由于和另一个实验环境冲突,尝试了修改,暂时未测试)

Hadoop配置

Apache Hadoop官方文档

账户配置和基础指令指导

填写配置文件

https://blog.csdn.net/u013232219/article/details/104429007

https://www.jianshu.com/p/2138e473b909

带参数解读版本

环境变量配置

1
2
3
#~/.bashrc etc/profile同理
sudo vim ~/.bashsrc
source ~/.bashsrc #启动配置

HADOOP_HOME应该填写hadoop安装的路径 这样在bash中可以直接使用hadoop命令

jdk 版本比较高 弹出警告可以忽略不计

hadoop需要的java环境变量

/usr/lib/jvm/java-11-openjdk-amd64/bin/java 而vscode java 需要的是 /usr/lib/jvm/java-11-openjdk-amd64/bin/java

出现问题时可以在安装hadoop的文件夹下的logs中查看,也注意观察终端info信息中显示log写入的地方 出现问题及时打印log查看报错

进行测试实验

指令文档

1
2
3
4
5
6
7
start-all.sh
jps #查hadoop伪集群启动情况
hadoop fs -ls / #先查看当前hdfs下的文件夹
hadoop fs -mkdir /test-in #创建文件夹
hadoop fs -put /home/njucs/BigData/V.html /test-in #移动文件到hadoop hdfs文件系统中指定文件夹下 注意本地文件夹的名字要写全 如果是在hadoop文件夹中操作的话
tail -500 yarn-hadoop-resourcemanager-xxx #显示前500个字节
hadoop dfs -cat /V-out/part-r-00000 #查看结果

样例的运行方法指导 样例程序wordcount在hadoop的share/hadoop/mapreduce下

可视化信息

1
2
http://localhost:50070/ 查看信息 端口是默认的
http://localhost:8088/cluster 查看集群信息 ip和端口默认

其他问题

  1. 不要轻易使用format命令,会导致datanode无法启动,解决方案是检查datanode和namenode的cluster-ID是否一致 最好直接删除

  2. application中找不到正在运行的任务,参考解决方案后,是yarn.xml没设置好

任务二

类别:添加或规范化License信息

位置:pkg/ddc/goosefs/runtime_info.go

内容:在该文件头部添加或规范化License信息

1
2
3
git remote add upstream https://github.com/fluid-cloudnative/fluid.git
git fetch upstream
git merge upstream/master #merge远程代码改动

调试方法+远程提交方法见Chap4 PPT

主要是熟悉git的开源社区协作方法

/user/2021sz01/exp4-1.0-SNAPSHOT.jar

hadoop jar /user/2021sz01/exp4-1.0-SNAPSHOT.jar com.hadoop.KMeans /user/2021sz01/exp4-example