小翔博客

hive优化-数据倾斜优化

佚名 7年前 (2018-08-16) Hadoop 596人围观抢沙发百度已收录

数据倾斜解决方法，通常从以下几个方面进行考量：

业务上丢弃

• 不参与关联：在on条件上直接过滤
• 随机数打散：比如 null、空格、0等“Other”性质的特殊值

倾斜键记录单独处理

• Join：找出倾斜key，把对应数据插入临时表，如果该表是小表，使用map join解决；
• Group by： set hive.groupby.skewindata = true

数据重分布

• 语法：Distribute By
• 场景：为下一个Stage的Map输入做负载均衡
• 代价：多一个Job

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

举个栗子：count distinct

--count(distinct ),在数据量大的情况下，效率较低，如果是多count(distinct )效率更低，因为count(distinct)是按group by 字段分组，按distinct字段排序，一般这种分布方式是很倾斜的。

*淘宝一天30亿的pv，按性别分组，分配2个reduce,每个reduce处理15亿数据。

*58房产一天1.5亿的pv，统计全国分二手房、租房等业务线的详情页pv、uv等指标，采用多case when的方式，仅分配一个reduce。

消除count disitnct，可以尝试“用户标签”法。

扫码关注我们

微信号：SRE实战

拒绝背锅运筹帷幄

赞 0 赏分享

转载请注明 : 文章转载自小翔博客 hive优化-数据倾斜优化

本文标题：hive优化-数据倾斜优化

本文链接：https://www.liuyixiang.com/post/11198.html

上一篇 : Consul初体验

下一篇 : MySQL utilities介绍&出现 No module named utilities

评论列表暂无评论

发表评论

« 2024年2月 »
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29