-
被大数据遗忘的基础奠基-Log
所属栏目:[大数据] 日期:2018-04-12 热度:100
在大数据时代,Log是关系数据库对计算机行业的伟大贡献,更是基础技术之一。然而在大家热烈讨论GFS, NoSQL,乃至Paxos, LSM tree等词语的时候,Log这个基础技术以及它对大数据行业的巨大贡献却一直以来都被业界所忽略。除了Kafka作者之一Jay Kreps2013年[详细]
-
数据清洗的经验与教训 Data Cleaning
所属栏目:[大数据] 日期:2018-04-12 热度:107
小学的时候我统计过同学里有多少要订课间牛奶:每人分别需要什么口味和什么大小,应收多少钱。最后这份按照座位排序的表格要和一张学号表格按照同学姓名对应起来,并计算每种口味订购数量和每人应收款。过程中我遇到了很多困难,例如有同学订了多种口味,[详细]
-
大数据趋势下如何实现NAS存储与容灾备份?
所属栏目:[大数据] 日期:2018-04-12 热度:179
1、数据量暴增,存储市场风云变幻 据IDC预测,全球的数据量正面临一个爆炸性增长,到2020年即将达到44ZB,那44ZB是个什么概念呢? 如果以1KB=1024MB计算,1ZB的数据量换成 128G iPad的高度,可达地球到月球距离的6.6倍。 这些数据中,90%的增量来自于非结构[详细]
-
物联网下:大数据属于谁?
所属栏目:[大数据] 日期:2018-04-12 热度:90
数据隐私与访问的讨论在物联网时代变得越来越复杂 在之前一些文章中,我已经警告过一些组织机构机构可能很快就会遭遇数据问题被锁定、赶出或以其他方式禁止访问,以有助于优化未来业务的关键新数据源的可能性。 虽然我相信每个数据驱动的组织机构现在就应[详细]
-
打破数据统一的七大原则
所属栏目:[大数据] 日期:2018-04-12 热度:165
数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成:1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出 一般而言[详细]
