浅析HDFS基本原理

随着互联网的发展,数据日益增多,增长超过了单机能够处理的上线,数据如何存储和处理成为了科技公司的难题,随着google的三篇论文的发布,大家终于找到了一个方案-分布式文件系统+MapReduce。Hadoop是参考google论文实现的,集成了分布式文件系统与分布式批处理平台。h »

大数据环境数据仓库&维度建模

来自公司内部的技术分享,是数仓的入门知识。 目录 数据仓库基本概念 维度建模 缓慢变化维度 拉链表 数据分层 1.1 数据仓库基本概念 1.2 维度建模 1.3 缓慢变化维度 1.4 拉链表 1.5 数据分层 作者介绍 郭彦磊,微鲤高级大数据开发工程师。作为主要研发人员 »

中华万年历大数据平台演进

单节点的统计系统 2014年之前,中华万年历统计的主要内容是广告,那时候统计方案是客户端采集到曝光、点击等数据,在客户端进行轻度汇总之后,提交到服务器,服务器通过redis做队列,采用Bitmap和Bitset的数据结构进行去重统计,然后快照到MySQL中,延时5分钟左右。这个阶 »