庖丁专题

使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计

写在前边的话：本篇博客也是在做豆瓣电影数据的分析过程中，需要对影评信息和剧情摘要信息进行分析而写的一篇博客以前学习Hadoop时，感觉做中文分词也没那么麻烦，但是到了Spark，却碰到了诸多困难，但幸好最终都解决了这些问题，而得到了正确的结果，这里我们不解释具体的spark语法之类的，着重于解决中文分词统计这个问题同步github

庖丁解LevelDB之概览

LevelDB是Google传奇工程师Jeff Dean和Sanjay Ghemawat开源的KV存储引擎，无论从设计还是代码上都可以用精致优雅来形容，非常值得细细品味。接下来就将用几篇博客来由表及里的介绍LevelDB的设计和代码细节。本文将从设计思路、整体结构、读写流程、压缩流程几个方面来进行介绍，从而能够对LevelDB有一个整体的感知。设计思路 LevelDB的数据是存储在磁盘上的，