站长资讯网
最全最丰富的资讯网站

Linux环境、伪分布式的搭建步骤

1、安装VMware

2、在编辑里面找到虚拟网络编辑器

3、配置VNnet8的子网IP为192.168.59.0;子网掩码为:255.255.255.0

4、在文件中找到新建虚拟机,根据电脑配置创建新的虚拟机

5、修改主机名 vi /etc/sysconfig/network(bigdata-training01.huadian.com)

6、配置ip UI界面 或 /vi /etc/sysconfig/network-scripts/ifcfg-eth0 (个人建议:IPv4 Setting 192.168.59.150 255.255.255.0192.168.59.2 8.8.8.8)

7、主机名映射 vi /etc/hosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01

8、测试 ping bigdata-training01.huadian.com

9、改Windows下的配置 C:WindowsSystem32driversetchosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01

10、可以运用远程连接工具 CRT、Xshell、notepad++

11、在root用户下配置普通用户具有sudo权限 visudo huadian ALL=(root) NOPASSWD:ALL

12、关闭防火墙 当前关闭 sudo service iptables stop

13、检查是否关闭成功 sudo service iptables status

14、设置开机不启动 sudo service iptables off

15、检查设置是否成功 chkcomfig iptables –list

补充:关闭selinux

vi /etc/selinux/config

vi /etc/sysconfig/selinux

设置SELINUX=disabled 该设置必须重启才能生效

16、关闭虚拟机 init 0 / halt

17、虚拟机快照

18、开机工作

19、规划Linux系统的目录结构

20、以系统的/opt为主安装软件包

21、/opt

/datas 测试数据

/softwares 软件包,上传的软件包

/moduls 软件安装目录

/tools 开发的IDE及工具

22、将上述目录所有者改为huadian sudo chown huadian:huadian /datas /softwares /moduls /tools

23、安装JDK

24、查看系统自带的openjdk是否存在 sudo rpm -qa |grep java

25、卸载系统自带的openjdk sudo -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 tzdata-java-2012j-1.el6.noarch java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64

26、下载Linux自带的上传和下载文件软件 sudo yum install -y lrzsz

27、rz 上传文件 上传到当前执行rz命令的路径

28、sz 下载文件

29、正式安装JDK 注意:Linux安装JDK类似于Windows安装一个绿色版本软件直接解压,然后配置环境变量即可

30、使用rz将Windows下的JDK上传的Linux系统下/opt/softwares下

31、解压JDK到/opt/moduls下 tar -zxvf jdk-8u91-linux-x64.tar.gz -C /opt/moduls/

32、配置环境变量 sudo vi /etc/profile

33、在最后面追加 #JAVA_HOME

export JAVA_HOME=/opt/moduls/jdk1.8.0_91

export PATH=${PATH}:${JAVA_HOME}/bin

34、使其生效 source /etc/profile

35、验证 java -version

36、虚拟机快照

37、伪分布式的安装

38、上传解压 hadoop-2.7.3.tar.gz

39、查看目录结构 ls/ll

40、删除 /bin /sbin share 下的*.cmd doc文件 补充:查看JDK路径:echo ${JAVA_HOME}

41、修改三个模块的环境变量(*.evn) hadoop-env.sh、 yarn-env.sh、mapred-env.sh 将JAVA_HOME的路径改为现在的路径

42、添加可执行权限 chown u+x hadoop-env.sh yarn-env.sh mapred-env.sh?

43、如果上述操作有误而导致权限问题 chown -R huadian:huadian hadoop……(出现权限问题的路径)

44、按照模块进行配置

45、common:

core-site.xml

fs.defaultFS

hdfs://bigdata-training01.huadian.com:8020 //8020:HDFS的内部通信端口

hadoop.tmp.dir

/opt/moduls/hadoop-2.7.2/data/tmpData

46、执行创建的临时目录

47、HDFS:

hdfs.site.xml

dfs.replications

1

48、slaves:

配置slaves文件,指定datanode运行在那些机器上

49、启动HDFS:

第一次使用文件系统,需要格式化。

-》格式系统

cd /opt/moduls/hadoop-2.7.3

bin/hdfs namenode -format(返回0 Exiting with status 0表示格式化成功)

-》启动和关闭

主节点

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh stop namenode

从节点

sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh stop datanode

50、验证是否启动成功

方式一:jps / ps -ef |grep java

方式二:通过web界面查看 bigdata-training01.huadian.com:50070 //50070:HDFS的外部UI访问端口

60、虚拟机快照

61、测试HDFS cd /opt/moduls/hadoop-2.7.3/

帮助文档 bin/hdfs dfs

在HDFS下创建目录 bin/hdfs dfs -mkdir -p /datas

HDFS的文件系统目录和Linux目录结构类似 命令也类似

上传文件 bin/hdfs dfs -put /opt/datas/input.data /datas/

查看文件内容 bin/hdfs dfs -text /datas/input.data 或 bin/hdfs dfs -cat /datas/input.data

下载文件 bin/hdfs dfs -get /datas/input.data ./

删除文件 bin/hdfs dfs -rm -r /datas/input.data

62、配置YARN

对于分布式资源管理和任务调度来说:哪些程序可以运行在YARN上

MapReduce

并行数据处理框架

spark

基于内存分布式处理框架

storm / flink

实时流式处理框架

TeZ

分析数据,比MapReduce快

主节点

resourceManager

从节点

nodeManager

需要修改的配置

yarn-site.xml

yarn.resourcemanager.hostname

bigdata-training01.huadian.com

yarn.resourcemanager.aux-services

mapreduce_shuffle

63、slaves文件 因为用的是伪分布式,所有程序在一台机器上,所以前面已经配置过,就不用再次配置

64、启动

主节点:resourceManager

sbin/yarn-daemon.sh start resourcemanager

从节点:nodeManager

sbin/yarn-daemon.sh start nodemanager

65、MapReduce

并行计算框架(2.X) 思想:分而治之

核心

Map 并行处理数据,将数据分割,一部分一部分的处理

Reduce 将Map的处理结果进行合并

配置

cd {Hadoop_Home}/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

mapreduce.farmework.name

yarn

66.mapreduce程序运行在yarn上

通过经典程序案例:wordcount

Hadoop提到测试案例,

/opt/moduls/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar

-》准备数据,数据是放到hdfs上的

-》提交运行

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount? //会报出需要传参数的错误

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /datas/input.data /output1

-》查看单词统计后的文件

bin/hdfs dfs -text (/output1/part-r-00000)根据自己的文件目录而定

67、配置历史服务器

查看监听已经运行完成的MapReduce任务的执行情况

配置mapred-site.xml

mapreduce.jobhistory.address

bigdata-hpsk01.huadian.com:10020

启动

sbin/mr-jobhistory-daemon.sh start historyserver

注意:在启动historyServer服务之前运行的job相关信息已经没了,只有后面运行的才有。

68、日志集聚功能

当MapReduce程序在YARN上运行完成之后,将产生日志文件上传到HDFS目录中,

以便后续查看。

yarn-site.xml

yarn.log-aggregation-enable

true

yarn.log-aggregation.retain-seconds

604800

69、重启YARN和jobHistoryServer

——————快照,克隆————————-

70、日志信息

{Hadoop_home}/logs

组件名称-用户名-服务名称-主机名

hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log

根据后缀名:

.log

程序启动相关信息会在里面,

进程启动失败

.out

程序运行相关的输出

system.out.print

system.out.error

怎么看:

tail -100f name

赞(0)
分享到: 更多 (0)