python spark环境配置

佚名 7年前 (2019-05-13) 随笔 839人围观抢沙发百度已收录

在配置Hadoop之前，应该先做以下配置 1.更改主机名首先更改主机名，目的是为了方便管理。输入:hostname 　　查看本机的名称

　　使用 hostname 修改当前主机名。

　　 hostname test1

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

　　然后输入:vim /etc/sysconfig/network

　　修改主机名称

　　将HOSTNAME 的名称更改为你想要设置的名称

注:主机名称更改之后，要重启(reboot)才会生效。输入:vim /etc/hosts 添加主机IP 和对应的主机名称，做映射。

注:在配置文件中使用主机名的话，这个映射必须做！ 2.关闭防火墙查看状态 firewall-cmd --state 　　关闭防火墙，方便外部访问。　　CentOS 7版本以下输入: 　　#关闭防火墙　　service iptables stop 　　CentOS 7 以上的版本输入：　　systemctl stop firewalld.service 3.时间设置　　输入:date 　　查看服务器时间是否一致，若不一致则更改　　更改时间命令　　date -s ‘MMDDhhmmYYYY.ss’ 参考： https://blog.csdn.net/muyi_amen/article/details/62423649 1.tar -zxvf jdk-8u91...... -C ~/app vi ~/.bash_profile 加上

source ~/.bash_profile echo $JAVA_HOME #检查 2.tar -zxvf scala...... -C ~/app vi ~/.bash_profile 加上

source ~/.bash_profile echo $SCALA_HOME #检查 3.tar -zxvf hadoop-2.6.0...... -C ~/app vi ~/.bash_profile 加上

source ~/.bash_profile echo $HADOOP_HOME #检查 cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop vim hadoop-env.sh 加上

vim core-site.xml 将<configurarion></configuration>补充

fs.default.name 这是配置HDFS中节点的URL，在文件系统中，每一个节点都有自己的URL，通过URL才能在整个分布式系统中管理和查询到此节点。集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册，这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互，以取得文件的块列表。 hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中 kvm是主机名，9000是RPC通信端口 vim hdfs-site.xml

dfs.replication 它决定着系统里面的文件块的数据备份个数，此数值一般不大于从机的个数。 dfs.name.dir 是设置NameNode的数据存放的本地路径 dfs.data.dir 是设置DataNode的数据存放的本地路径 dfs.http.address是设置NameNode的tracker页面监听地址和端口 cp mapred-site.xml.template mapred-site.xml vi mapred-site.xml

vi yarn-site.xml

node1为主机名 cd /root/app/hadoop-2.6.0-cdh5.7.0/bin ./hadoop namenode -format

检查下这里面里有没有多了东西了

cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin ./sbin/start-all.sh 或者./sbin/start-dfs.sh # ./sbin/stop-all.sh(关闭集群) (如果在~/.bash_profile加上HADOOP_HOME/sbin，就可以去掉sbin/) 如下图说明启动成功

免密登录 　　启动和停止 Hadoop 都会让你输入四次当前服务器的密码。因此我们需要配置免密码登录服务器。

　　1.ssh-keygen -t rsa　　　　　　 ~/.ssh文件里会生成

　　2.cd ~/.ssh

　　　　 cat id_rsa.pub>>authorized_keys

　　　　就可以了，可以用ssh localhost测试下

4.tar -zxvf apache-maven-3.3.9-bin.tar.gz -C ~/app vim ~/.bash_profile

source ~./bash_profile mkdir ~/app/maven_repository cd /root/app/apache-maven-3.3.9/conf vim settings.xml

这一步是修改 The path to the local repository maven will use to store artifacts mvn

就成功了 5.安装python3.6.5 下载pyton3.6.5 source release 配置python依赖环境 yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel tar -zxvf Python-3.6.5.tgz cd Python-3.6.5 ./configure --prefix=/root/app/python3 make && make install 配置路径

6.安装spark https://archive.apache.org/dist/spark/spark-2.3.0/ 　　#下载source code

　　#tar -zxvf spark-2.3.0.tgz

　　#cd /home/software/spark-2.3.0/dev

　　#./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

　　解压：　　tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/ 　　配置到环境变量： export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6 　　　　　　　　　　　　　　　　　export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin 　　测试：　　运行一个简单的spark程序　　 spark-shell