SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

  在实习期间,公司使用的hue平台做的数仓,下面就简单介绍一下hue的一些使用的注意事项,主要是工作流的使用和调度

进入hue首页:

  在hue平台上使用oozie工作流调度 Hadoop 第1张

Workflow是工作流,Schedule是调度工作流的,如设置工作流何时跑,周期是多久,等等,下面会详细介绍,Bundle是绑定多个调度,暂时我没有用上

等使用后再更新

 

在hue平台上使用oozie工作流调度 Hadoop 第2张

上面有一栏,有hive,hive2,spark,java,shell等等,直接拖入到Drop your action here这个阴影框中即可

下面的都以hive2为例,

在hue平台上使用oozie工作流调度 Hadoop 第3张

选择文件添加即可,同时下面还有很多选项

在hue平台上使用oozie工作流调度 Hadoop 第4张

 

 友情提示,虽然已经选择了文件,但是我建议还是在选择一次,右边的是添加文件依赖,

左边是参数设置,比如工作流按时间跑,设置是时间等等,根据需求设置即可

  在hue平台上使用oozie工作流调度 Hadoop 第5张

 

工作流建立完成之后,单个脚本或者代码可以单独执行,进行测试,再右上角

或者整个工作流进行运行,也是在右上角

这是工作流的配置,下面讲调度

进入调度

在hue平台上使用oozie工作流调度 Hadoop 第6张

选择一个workflow工作流

在hue平台上使用oozie工作流调度 Hadoop 第7张在hue平台上使用oozie工作流调度 Hadoop 第8张

注意hue,oozie是有时区的设置的,默认是零时区时间,换成东八区时间要+8小时,设置配置时间同步

由于公司没有设置,所以是在建立调度上自己注意的,这里的时间都是零时区的时间

在hue平台上使用oozie工作流调度 Hadoop 第9张可以按小时,天,周,月,年进行定时调度

 

 

在hue平台上使用oozie工作流调度 Hadoop 第10张

 

 因为是今天跑昨天的数据,所以数据是昨天的,时间要减,因为是零时区的时间和东八区的时间差了8个小时,所以减了16个小时

下面的是输入文件,起到标识作用,有了这个文件任务才能启动,也是一种依赖文件

还有一种情况

在hue平台上使用oozie工作流调度 Hadoop 第11张

如果是周计划,或者月计划,需要依赖多个,如7个,30个文件,不可能一一配置

选择上面的range,-6代表从任务执行的是时间-6,因为时区原因,如果是星期一启动任务,则到了上周星期一,0到了上周日

这是跑周计划中依赖一周的文件,其他情况可以参考上面的,可能会一些时区或者平台的问题有一些出入,配置根据具体情况而定

 

任务运行后可以查看执行情况:在hue平台上使用oozie工作流调度 Hadoop 第12张在右上角,

在hue平台上使用oozie工作流调度 Hadoop 第13张

自己选择查看类型,里面也有日志,执行task,执行参数,时间等等

 

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄