本文主要是介绍「Mongo」聚合操作与清洗重复数据项,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
使用Mongo聚合操作来进行重复的数据项清洗,并使用PyMongo加入到数据清洗组件中。
当前环境:PyMongo 3.6.1 / MongoDB 3.4.7 / Python 3.6.4 :: Anaconda, Inc.
在爬虫中断续爬时会出现少量数据重复的问题,我将数据去重放在了数据清洗环节,清洗的过程中顺带将重复的数据删除。
Mongo老版本的解决方案是建立单一索引,Mongo3.+可以使用聚合操作将重复的数据检索出来并进行删除。
元数据结构如下:
item = { "_id" : ObjectId("..."), "title" : "...", # 数据标题"date" : "...", # 数据日期"url" : "...", # 数据来源"content" : "...", "source" : "...""category" : "...", ...
}
需要根据「相同标题+相同日期+相同来源」判定数据重复,在管道中根据这三项条件分组( group)后计数将数量>1的匹
这篇关于「Mongo」聚合操作与清洗重复数据项的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!