本文主要是介绍ARIMA 时间序列5: 维基百科词条EDA,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
%matplotlib inlinetrain = pd.read_csv('train_1.csv').fillna(0)
print(train.shape)
train.head()
打印info信息看到数据大小 609.8+ MB
for col in train.columns[1:]:train[col] = pd.to_numeric(train[col], downcast = 'integer')# pd.to_numeric() 转变数据为数字型
train.head()train.info()
def get_language(page):res = re.search('[a-z][a-z].wikipadia.org', page)if res:return res.group()[0:2]return 'na'train['lang'] = train.Page.map(get_language)from collections import Counter
print(Counter(train.lang))
Counter({‘en’: 24108, ‘ja’: 20431, ‘de’: 18547, ‘na’: 17855, ‘fr’: 17802, ‘zh’: 17229, ‘ru’: 15022, ‘es’: 14069})
# 转变为字典结构
lang_sets = {}
lang_sets['en'] = train[train.lang == 'en'].iloc[:, 0:-1]
lang_sets
这篇关于ARIMA 时间序列5: 维基百科词条EDA的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!