Hadoop实验一记录

虚拟机环境准备

账户设置：采用虚拟机原有设置没有新建账号

环境变量设置

sudo vi ~/.bash_profile

PATH=$PATH:$HOME/bin
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/bin/java #需要查询本地Java安装地址 export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/bin/java //需要查询本地Java安装地址 

export HADOOP_HOME=/home/hadoop/hadoop_installs/hadoop-2.7.7
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$PATH
export CLASSPATH=$JAVA_HOME/lib:.

下载安装ssh 确认启动

（由于和另一个实验环境冲突，尝试了修改，暂时未测试）

Hadoop配置

Apache Hadoop官方文档

账户配置和基础指令指导

填写配置文件

https://blog.csdn.net/u013232219/article/details/104429007

https://www.jianshu.com/p/2138e473b909

带参数解读版本

环境变量配置

1
2
3

#~/.bashrc etc/profile同理
sudo vim ~/.bashsrc
source ~/.bashsrc #启动配置

HADOOP_HOME应该填写hadoop安装的路径这样在bash中可以直接使用hadoop命令

jdk 版本比较高弹出警告可以忽略不计

hadoop需要的java环境变量

/usr/lib/jvm/java-11-openjdk-amd64/bin/java 而vscode java 需要的是 /usr/lib/jvm/java-11-openjdk-amd64/bin/java

出现问题时可以在安装hadoop的文件夹下的logs中查看，也注意观察终端info信息中显示log写入的地方出现问题及时打印log查看报错

进行测试实验

指令文档

start-all.sh
jps #查hadoop伪集群启动情况
hadoop fs -ls /    #先查看当前hdfs下的文件夹
hadoop fs -mkdir /test-in #创建文件夹
hadoop fs -put /home/njucs/BigData/V.html /test-in #移动文件到hadoop hdfs文件系统中指定文件夹下 注意本地文件夹的名字要写全 如果是在hadoop文件夹中操作的话
tail -500 yarn-hadoop-resourcemanager-xxx #显示前500个字节
hadoop dfs -cat /V-out/part-r-00000 #查看结果

样例的运行方法指导样例程序wordcount在hadoop的share/hadoop/mapreduce下

可视化信息

1 2	http://localhost:50070/ 查看信息端口是默认的 http://localhost:8088/cluster 查看集群信息 ip和端口默认

其他问题

不要轻易使用format命令，会导致datanode无法启动，解决方案是检查datanode和namenode的cluster-ID是否一致最好直接删除
application中找不到正在运行的任务，参考解决方案后，是yarn.xml没设置好

任务二

类别：添加或规范化License信息

位置：pkg/ddc/goosefs/runtime_info.go

内容：在该文件头部添加或规范化License信息

1
2
3

git remote add upstream https://github.com/fluid-cloudnative/fluid.git
git fetch upstream
git merge upstream/master #merge远程代码改动

调试方法+远程提交方法见Chap4 PPT

主要是熟悉git的开源社区协作方法

/user/2021sz01/exp4-1.0-SNAPSHOT.jar

hadoop jar /user/2021sz01/exp4-1.0-SNAPSHOT.jar com.hadoop.KMeans /user/2021sz01/exp4-example