五分钟轻松了解Hbase面向列的存储

[置顶] 五分钟轻松了解Hbase面向列的存储

说明:从严格的列式存储的定义来看,Hbase并不属于列式存储,有人称它为面向列的存储,请各位看官注意这一点。 行式存储 传统的数据库是关...

OpenTSDB/HBase的调优过程整理

[置顶] OpenTSDB/HBase的调优过程整理

背景 过年前,寂寞哥给我三台机器,说搞个新的openTSDB集群。机器硬件是8核16G内存、3个146G磁盘做数据盘。 我说这太抠了,寂寞哥说之前的TS...

亿级 ELK 日志平台构建部署实践

[置顶] 亿级 ELK 日志平台构建部署实践

本篇主要讲工作中的真实经历,我们怎么打造亿级日志平台,同时手把手教大家建立起这样一套亿级 ELK 系统。日志平台具体发展历程...

HBase数据压缩编码探索

[置顶] HBase数据压缩编码探索

摘要: 本文主要介绍了hbase对数据压缩,编码的支持,以及云hbase在社区基础上对数据压缩率和访问速度上了进行的改进。前言你可曾遇到这种需求,...

Ambari2.7.3 和HDP3.1.0搭建Hadoop集群

[置顶] Ambari2.7.3 和HDP3.1.0搭建Hadoop集群

一、环境及软件准备 1、集群规划...

Ambari2.6.2 HDP2.6.5 大数据集群搭建

[置顶] Ambari2.6.2 HDP2.6.5 大数据集群搭建

Ambari 2.6.2 中 HDFS-2.7.3 YARN-2.7.3 HIVE-1.2.1 HBASE-1.1.2 ZOOKEEPER-3.4.6 SP...

hadoop-2.7.7 HA完全分布式集群部署详解

[置顶] hadoop-2.7.7 HA完全分布式集群部署详解

1.Hadoop HA简介及工作原理Hadoop NameNode官方开始支持HA集群默认是从2.0开始,之前的版本均是不支持NameNode HA的高可用...

可怕的黑暗料理之暗黑谷歌搜索神器

[置顶] 可怕的黑暗料理之暗黑谷歌搜索神器

1.暗黑谷歌的由来 有这么一款搜索引擎,它一刻不停的在寻找着所有和互联网关联的PLC、摄像头、红绿灯、打印机、路由器、交换机、服务器、数据库等等各种软硬件...

Oracle12c跨平台迁移之linux至windows

[置顶] Oracle12c跨平台迁移之linux至windows

近期应朋友邀请协助处理一起oracle数据库跨平台迁移的项目,需求为迁移centos 7.2 linux的oracle12.2数据库至windo...

GoldData学习实例-采集官网新闻数据

GoldData学习实例-采集官网新闻数据

概述   在本节中,我们将讲述抓取政府官网地方新闻。并将抓取的新闻数据融入到以下两张数据表news_site和news中。 news_s...

数据挖掘算法——Apriori算法

数据挖掘算法——Apriori算法

Apriori算法  首先,Apriori算法是关联规则挖掘中很基础也很经典的一个算法。 转载来自:链接:https://www.ji...

新入坑大数据的小白有困惑

新入坑大数据的小白有困惑

希望各位前辈、大佬能给与一些指点,万分感谢!!!!!! 我是刚入职大数据工作的小白,对大数据的相关知识只能算是有了一个简单的了解,也找了一份大数据的工作(...

在hue平台上使用oozie工作流调度

在hue平台上使用oozie工作流调度

      在实习期间,公司使用的hue平台做的数仓,下面就简单介绍一下hue的一些使用的注意事项,主要是工作流的使用和调度 进入...

克隆虚拟机及配置yum源的步骤及讲解(Hadoop基础)

克隆虚拟机及配置yum源的步骤及讲解(Hadoop基础)

1、克隆虚拟机     找一台需要克隆的虚拟机但虚拟机必须在关机下进行,(建议将前期Linux环境 配置完成)     在VMware中右键虚...

Hadoop的HDFS和MapReduce的安装(三台伪分布式集群)

Hadoop的HDFS和MapReduce的安装(三台伪分布式集群)

一、创建虚拟机   1、从网上下载一个Centos6.X的镜像(http://vault.centos.org/)   2、安装一台虚拟机配置如下:cp...

一个专门下载全球气象站数据的网站(包括中国700多个站)

一个专门下载全球气象站数据的网站(包括中国700多个站)

我只是搬运工。。。 1.我也下载了,好像不能超过500M每次,100个站。下了也不会看。有没有高手能介绍下专门下载某个省的所有气象站气温资料的方法,从而计...

使用Python的Mock库进行PySpark单元测试

使用Python的Mock库进行PySpark单元测试

测试是软件开发中的基础工作,它经常被数据开发者忽视,但是它很重要。在本文中会展示如何使用Python的uniittest.mock库对一段PySpark代码...

HBase表的基本结构和常用命令行操作

HBase表的基本结构和常用命令行操作

一、HBase表的基本结构   1.概述:    平时常见的MySQL、Oracle数据库都是传统型关系数据库,它们都是按行查询、按行存储;而HBase...

HBase的概述和安装部署

HBase的概述和安装部署

一、HBase概述   1.HBase是Hadoop数据库,是一个分布式、可扩展的大数据存储。   HBase是用于对大数据进行随机、实时读写访问的非关...

elasticsearch 请求体查询方式整理

elasticsearch 请求体查询方式整理

空查询(empty search) —{}— 在功能上等价于使用 match_all 查询, 正如其名字一样,匹配所有文档: GET /_search...

intelij创建MapReduce工程

intelij创建MapReduce工程

1、创建一个maven工程 2、POM文件 <?xml version="1.0" encoding="UTF-8"?><projec...

User Login