50个数据科学和机器学习速查表
admin 9年前 (2015-07-28) 3921浏览 0评论
在数据科学领域有成千上万的包和数以百计的函数公式,你虽然不需要掌握所有的这些知识,但是有一个速查表在你的学习中是非常重要的。学习大数据包括对统计学、数学、编程知识(尤其是R、python、SQL)等知识的理解,还需要理解业务来驱动决策。这些表单也许能...
admin 9年前 (2015-07-28) 3921浏览 0评论
在数据科学领域有成千上万的包和数以百计的函数公式,你虽然不需要掌握所有的这些知识,但是有一个速查表在你的学习中是非常重要的。学习大数据包括对统计学、数学、编程知识(尤其是R、python、SQL)等知识的理解,还需要理解业务来驱动决策。这些表单也许能...
admin 10年前 (2014-12-25) 2741浏览 0评论
背景: 公司在线上使用了CDH5集群,一开始由于疏忽,忘记了在计划任务中定期执行Balancer来平衡各节点的数据。 后来,在引入大量的Job之后,数据增长非常迅猛,有很多节点开始出现利用率超过99.9%的情况,部分Job甚至开始Failed。 于是...
admin 10年前 (2014-12-25) 3416浏览 0评论
背景: 公司在线上使用了CDH5 HA模式,有两个Namenode节点,结果其中的Standby节点因为一些关于edits文件的报错异常停止了,并且在启动的过程中一直报告找不到各种文件。 刚开始怀疑问题可能只发生在Standby本身,因此尝试了boo...
admin 12年前 (2012-12-28) 3212浏览 0评论
FROM:http://luoli523.com/blog/2012/12/27/yun-ti-ji-qun-filenotfoundling-yi-shi-jian-zhui-cha-shi-mo/ 集群最近出现了一个非常诡异的现象,问题的表象如下...
admin 13年前 (2012-05-16) 4104浏览 0评论
硬件技术的发展给存储和数据库软件技术提供了新的机会。近年来SSD开始流行,那么SSD能否给Hadoop/HBase带来性能的提升呢?来自Facebook数据团队的工程师们做了相关的研究和实验工作。 本文是http://hadoopblog.blogs...