python spark环境配置 随笔 第1张   python spark环境配置 随笔 第2张     在配置Hadoop之前,应该先做以下配置   1.更改主机名 首先更改主机名,目的是为了方便管理。  输入:hostname    查看本机的名称 

  使用 hostname 修改当前主机名。

   hostname test1

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

  然后输入:vim /etc/sysconfig/network

  修改主机名称 

  将HOSTNAME 的名称更改为你想要设置的名称 

  python spark环境配置 随笔 第3张 注:主机名称更改之后,要重启(reboot)才会生效。 输入:vim /etc/hosts 添加 主机IP 和对应的主机名称,做映射。    python spark环境配置 随笔 第4张 注:在配置文件中使用主机名的话,这个映射必须做!   2.关闭防火墙     查看状态         firewall-cmd --state   关闭防火墙,方便外部访问。    CentOS 7版本以下输入:    #关闭防火墙   service   iptables stop   CentOS 7 以上的版本输入:   systemctl   stop   firewalld.service   3.时间设置   输入:date   查看服务器时间是否一致,若不一致则更改    更改时间命令    date -s ‘MMDDhhmmYYYY.ss’     参考: https://blog.csdn.net/muyi_amen/article/details/62423649 1.tar -zxvf jdk-8u91......     -C  ~/app    vi ~/.bash_profile    加上 python spark环境配置 随笔 第5张    source ~/.bash_profile    echo $JAVA_HOME  #检查    2.tar -zxvf scala......     -C  ~/app    vi ~/.bash_profile    加上 python spark环境配置 随笔 第6张    source ~/.bash_profile    echo $SCALA_HOME  #检查  3.tar -zxvf hadoop-2.6.0......     -C  ~/app    vi ~/.bash_profile    加上 python spark环境配置 随笔 第7张    source ~/.bash_profile    echo $HADOOP_HOME #检查         cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop    vim hadoop-env.sh    加上 python spark环境配置 随笔 第8张       vim core-site.xml   将<configurarion></configuration>补充 python spark环境配置 随笔 第9张 fs.default.name  这是配置HDFS中节点的URL,在文件系统中,每一个节点都有自己的URL,通过URL才能在整个分布式系统中管理和查询到此节点。集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。 hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中   kvm是主机名,9000是RPC通信端口      vim hdfs-site.xml python spark环境配置 随笔 第10张 dfs.replication 它决定着系统里面的文件块的数据备份个数,此数值一般不大于从机的个数。 dfs.name.dir 是设置NameNode的数据存放的本地路径 dfs.data.dir 是设置DataNode的数据存放的本地路径 dfs.http.address是设置NameNode的tracker页面监听地址和端口     cp mapred-site.xml.template  mapred-site.xml vi mapred-site.xml python spark环境配置 随笔 第11张     vi yarn-site.xml python spark环境配置 随笔 第12张 node1为主机名     cd /root/app/hadoop-2.6.0-cdh5.7.0/bin ./hadoop namenode -format python spark环境配置 随笔 第13张 检查下这里面里有没有多了东西了 python spark环境配置 随笔 第14张     cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin  ./sbin/start-all.sh       或者./sbin/start-dfs.sh           # ./sbin/stop-all.sh(关闭集群) (如果在~/.bash_profile加上HADOOP_HOME/sbin,就可以去掉sbin/)   如下图说明启动成功 python spark环境配置 随笔 第15张     免密登录   启动和停止 Hadoop 都会让你输入四次当前服务器的密码。因此我们需要配置免密码登录服务器。 python spark环境配置 随笔 第16张    1.ssh-keygen -t rsa        ~/.ssh文件里会生成 python spark环境配置 随笔 第17张

  2.cd ~/.ssh

      cat id_rsa.pub>>authorized_keys

        就可以了 ,可以用ssh localhost测试下 

 

4.tar -zxvf  apache-maven-3.3.9-bin.tar.gz   -C  ~/app        vim ~/.bash_profile python spark环境配置 随笔 第18张          source ~./bash_profile          mkdir ~/app/maven_repository          cd /root/app/apache-maven-3.3.9/conf     vim settings.xml python spark环境配置 随笔 第19张     这一步是修改 The path to the local repository maven will use to store artifacts          mvn python spark环境配置 随笔 第20张     就成功了      5.安装python3.6.5     下载pyton3.6.5 source release     配置python依赖环境      yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel          tar -zxvf Python-3.6.5.tgz     cd  Python-3.6.5     ./configure --prefix=/root/app/python3     make && make install          配置路径 python spark环境配置 随笔 第21张   python spark环境配置 随笔 第22张   6.安装spark https://archive.apache.org/dist/spark/spark-2.3.0/   #下载source code

  #tar -zxvf spark-2.3.0.tgz 

  #cd /home/software/spark-2.3.0/dev

   #./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

   解压:   tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/   配置到环境变量: export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6                                 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin   测试:   运行一个简单的spark程序    spark-shell

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄