本文主要是介绍Python自学第4周反馈:大盘股指,从爬取到预测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目标:爬取大盘数据,并简单预测
本次忽略了股市的其他影响因素,仅对数据进行移动平滑预测,文末会附上自己写的几个常用函数和完整的整个过程代码
1.解析网页,找到目标数据
找到日K线图,点开开发者工具,数据量这么大的肯定就是这个日数据了
点开看下,一目了然
找到数据对应的位置
日期 | 开盘 | 收盘 | 最高 | 最低 | 成交量 | 成交额 | 振幅 |
---|---|---|---|---|---|---|---|
2019-09-19 | 2992.92 | 2999.28 | 2999.28 | 2975.40 | 162690616 | 193206550528.00 | 0.80 |
2.用python爬取数据
找到目标数据的位置和他的排列之后,看下爬取可能性,这个网址没有反爬,所以不用Cookie和代理,简单的请求就能得到数据,如果是要请求大量的网页时,可以先爬取网页的二级URL形成连接列表,然后遍历列表请求数据
# 1.get请求,隐去部分为学习知识点
shuju = requests.get(URL) #用requests模块请求网页
print(shuju) #得到请求状态码检查是否正确请求成功
#print(shuju.content.decode('utf-8')) #返回字节流数据 自己解码,避免乱码
#print(shuju.url) #查看完整url地址,自动帮忙编码
#print(shuju.encoding) # 查看响应头部字符编码
#print(shuju.text) #返回unicode格式的数据 有中文,已经解码 返回字符串
#print(shuju.content) #返回字节流数据 无中文,编码字节
3.对数据进行处理
得到的数据并不能直接使用,要稍微处理下方便后面用,因为还没学正则,所以这里按特定符号切割得到的数据字符串,再放入标准字典。
我的标准字典,是按照第几行第几列来编码数据顺序,方便对接我自己写的其他函数
#整理得到的数据
liebiao_1= re.split(r'\[',shuju.content.decode('utf-8'))[-1] #把字符串按方括号[切割取后面部分
liebiao_2 = re.split(r']',liebiao_1)[0] #把字符串按方括号]切割取前面部分
liebiao_3 = re.split(r'","|"',liebiao_2) #把字符串按引号和逗号切割
liebiao = [] #建立一个空列表
for x in liebiao_3: #遍历原先切割字符串等得到的列表if x != '': #剔除空集liebiao.append(x) #放回空列表
#print(liebiao)
DaPan = {} #建立个标准字典放数据
for i in range(0,len(liebiao)): #遍历数据的行数DaPan['第'+str(i+1)+'行'] = {} #生成行字典i_biao = re.split(r',',liebiao[i]) #对数据按逗号再切割for k in range(0,len(i_biao)): #遍历切割好的数据到行列表下的列键DaPan['第' + str(i + 1) + '行']['第' + str(k + 1) + '列'] = i_biao[k]
4.对数据进行预测
我之前写了个按照周期移动预测的小脚本,把这个脚本函数化后用在这里可以较为方便得到预测数据
def Yuce(Y_,T,yece_X_T): #对周期为T的数组列表Y_预测未来X个周期的值Y = [] #建立一个空列表用来装格式化后的数据for a in Y_: #遍历数组中的数据,进行标准格式化a_ = float(a) #全部浮点化放给a_Y.append(a_) #把标准化后的数据放进预存列表# 1.计算一个周期变化后的连续移动求和:根据数据选取周期,日数据周期为365,周数据周期为52,月数据周期为12Last_T_yidong_Sum = [] #建立一个列表用来存放一个周期之后的移动求和值for num_1 in list(range(1, len(Y) + 1 - T)): #移动求和值的总数量等于所有数值减去一个周期Sum_num = sum(Y[num_1:num_1 + T]) #设置好求和长度为一个周期T并求和Last_T_yidong_Sum.append(Sum_num) #把求和结果放入预存列表# 2.生成移动求和的预测值X = list(range(1, len(Last_T_yidong_Sum) + 1)) #因为只有一个数组,生成一个与之匹配的标准单位XX_pingjun = sum(X) / len(Last_T_yidong_Sum) #求单位X的均值Y_pingjun = sum(Last_T_yidong_Sum) / len(Last_T_yidong_Sum) #求Y项的均值,即前面得出的移动求和值的均值Sum_1 = [] # 放Xi*YiSum_2 = [] # 放Xi*Xifor n in list(range(0, len(Last_T_yidong_Sum))): #遍历一个和移动求和值数组等位的序数表sum_1 = X[n] * Last_T_yidong_Sum[n] #Xi*YiSum_1.append(sum_1) #对Xi*Yi求合计sum_2 = X[n] * X[n] #Xi*XiSum_2.append(sum_2) #对Xi*Xi求合计if (sum(Sum_2) - len(Last_T_yidong_Sum) * X_pingjun * X_pingjun) ==0:b = 0 #剔除被除数为零的情况,被除数为零代表是一条水平线else: #被除数不为零时,按照回归方程公式计算系数bb = (sum(Sum_1) - len(Last_T_yidong_Sum) * X_pingjun * Y_pingjun) / (sum(Sum_2) - len(Last_T_yidong_Sum) * X_pingjun * X_pingjun)a = Y_pingjun - b * X_pingjun #计算系数aYuce = list(range(len(Last_T_yidong_Sum) + 1, len(Last_T_yidong_Sum) + yece_X_T* T + 1))#生成用于预测的X数组X_Y_yece_sum = [] #建立个列表用来放移动合计的预测值for yuce_X_num in Yuce: #遍历需要预测Y值的X数组Y_yuce = b * yuce_X_num + a #按照回归系数进行预测X_Y_yece_sum.append(Y_yuce) #把得到的预测值放入预存列表# 3.拼接移动做差every_T = Y[T:] #先把原始数据中一个周期时间点后的数据放到每期中start_X_T = int(len(Y[T:])) #计算原始数据砍去第一个周期后的剩余长度for sum_y in X_Y_yece_sum: #遍历移动求和的预测值every_T.append(sum_y) #把移动求和的预测值添加到每期数据后方便做差方便向前做减for Y_i in list(range(start_X_T, start_X_T + len(X_Y_yece_sum))): #从历史长度之后开始到最后一个位置为止every_T[Y_i] = every_T[Y_i] - sum(every_T[Y_i - T + 1:Y_i]) #减去前面T-1位的合计值(减去前面T-1项的求和)# 5.实际得到的X个周期内的各期值X_Y_every_yuce = every_T[start_X_T:] #把历史数据移除只要预测出来的数据return X_Y_every_yuce #返回这个预测值列表
那么我只需要调用几次这个函数,就可以得到想要的数据预测值
这里所有的数据都是字符串,因为日期是字符串,如果需要使用浮点数据或整数数据,可以遍历重新转化数据类型(在我的极值函数中能够用上)
# 标准工作日一年250天,一个周期T=250,一般4年含有一次闰年4T/8T为完整变化,
# 所以选用7*250天的数据,预测第8个250天
# 因为7年数据长度过长在Pycharm中不便于展示,设定为2年预测1年,
# 后期深入学习可视化后会进行优化
Year = 2
#day_1 = get_line_excel(DaPan,1)[-250*Year:] # 日期
open_2 = get_line_excel(DaPan,2)[-250*Year:] # 开盘
end_3 = get_line_excel(DaPan,3)[-250*Year:] # 收盘
max_4 = get_line_excel(DaPan,4)[-250*Year:] # 最高
min_5 = get_line_excel(DaPan,5)[-250*Year:] # 最低
#deal_6 = get_line_excel(DaPan,6)[-250*Year:] # 成交量
#deal_7 = get_line_excel(DaPan,7)[-250*Year:] # 成交额
#FFF_8 = get_line_excel(DaPan,7)[-250*Year:] # 振幅
#这里用遍历附加,如果还要使用原始预测数据不容易出错
Open = open_2 #原始数据+预测数据
for i in Yuce(open_2,250,1):Open.append(i)
END = end_3 #原始数据+预测数据
for m in Yuce(end_3,250,1):END.append(m)
Max = max_4 #原始数据+预测数据
for n in Yuce(max_4, 250, 1):Max.append(n)
Min = min_5 #原始数据+预测数据
for k in Yuce(min_5, 250, 1):Min.append(k)
5.数据可视化展示
# 可视化看下趋势
import matplotlib.pyplot as plt #用于制定图表
from matplotlib.font_manager import FontProperties #用于设定中文
font = FontProperties(fname=r"C:\windows\fonts\msyh.ttc") #大概是用来指定系统中的中文# 1.折线plt.title("大盘股指预测",fontproperties=font,fontsize=15) #给定图标名称并设置字号
plt.xlabel("日序数",fontproperties=font,fontsize=15) #给定X轴名称并设置字号
plt.ylabel("价格",fontproperties=font,fontsize=15) #给定Y轴名称并设置字号
# 给定坐标刻度并设置字号,both意思是横竖坐标都包括,labelsize=刻度字号,direction=刻度线朝向,width=刻度线粗细,length=刻度线长度
plt.tick_params(axis='both',labelsize=10,width=1,length=10) #direction='in',不写时自动在外面X = list(range(1,len(Open)+1)) #因为系统对应第一个Y值是0坐标,所以自设X坐标修正
plt.plot(X,Open,0,alpha=1,color='b',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细
plt.plot(X,END,0,alpha=1,color='y',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细
plt.plot(X,Max,0,alpha=1,color='r',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细
plt.plot(X,Min,0,alpha=1,color='g',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细plt.show() #显示内容
得到下面这么个玩意?,因为数据量过大,暂时没学会可视化,将就着看下,如果需要实际操作或者看更为细致,可以把数据导出到EXcel
最后,附上整个过程的代码
URL = "http://push2his.eastmoney.com/api/qt/stock/kline/get?cb=jQuery18307260937131972509_1568895663861&secid=1.000001&ut=fa5fd1943c7b386f172d6893dbfba10b&fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58&klt=101&fqt=0&beg=19900101&end=20220101&_=1568895665541"
import re
import requests
#在单独表字典中单独读取某列为列表
def get_line_excel(biao_zidian,lie_num): #读取自定义标准字典的特定列为列表的函数key = [] #建立一个列表用来装标准字典的键,即第几行lie_liebiao = [] #建立一个列表用来装不同行相同列获得的值for a in biao_zidian.keys(): #遍历标准字典的键名key.append(a) #把键名放入键预存列表for key_i in key: #遍历键预存列表中的键名(遍历行)lie_liebiao.append(str(biao_zidian[key_i]['第'+str(lie_num)+'列']))#把指定列的值放入列值预存列表return lie_liebiao #返回这个值列表
#移动平滑预测函数
def Yuce(Y_,T,yece_X_T): #对周期为T的数组列表Y_预测未来X个周期的值Y = [] #建立一个空列表用来装格式化后的数据for a in Y_: #遍历数组中的数据,进行标准格式化a_ = float(a) #全部浮点化放给a_Y.append(a_) #把标准化后的数据放进预存列表# 1.计算一个周期变化后的连续移动求和:根据数据选取周期,日数据周期为365,周数据周期为52,月数据周期为12Last_T_yidong_Sum = [] #建立一个列表用来存放一个周期之后的移动求和值for num_1 in list(range(1, len(Y) + 1 - T)): #移动求和值的总数量等于所有数值减去一个周期Sum_num = sum(Y[num_1:num_1 + T]) #设置好求和长度为一个周期T并求和Last_T_yidong_Sum.append(Sum_num) #把求和结果放入预存列表# 2.生成移动求和的预测值X = list(range(1, len(Last_T_yidong_Sum) + 1)) #因为只有一个数组,生成一个与之匹配的标准单位XX_pingjun = sum(X) / len(Last_T_yidong_Sum) #求单位X的均值Y_pingjun = sum(Last_T_yidong_Sum) / len(Last_T_yidong_Sum) #求Y项的均值,即前面得出的移动求和值的均值Sum_1 = [] # 放Xi*YiSum_2 = [] # 放Xi*Xifor n in list(range(0, len(Last_T_yidong_Sum))): #遍历一个和移动求和值数组等位的序数表sum_1 = X[n] * Last_T_yidong_Sum[n] #Xi*YiSum_1.append(sum_1) #对Xi*Yi求合计sum_2 = X[n] * X[n] #Xi*XiSum_2.append(sum_2) #对Xi*Xi求合计if (sum(Sum_2) - len(Last_T_yidong_Sum) * X_pingjun * X_pingjun) ==0:b = 0 #剔除被除数为零的情况,被除数为零代表是一条水平线else: #被除数不为零时,按照回归方程公式计算系数bb = (sum(Sum_1) - len(Last_T_yidong_Sum) * X_pingjun * Y_pingjun) / (sum(Sum_2) - len(Last_T_yidong_Sum) * X_pingjun * X_pingjun)a = Y_pingjun - b * X_pingjun #计算系数aYuce = list(range(len(Last_T_yidong_Sum) + 1, len(Last_T_yidong_Sum) + yece_X_T* T + 1))#生成用于预测的X数组X_Y_yece_sum = [] #建立个列表用来放移动合计的预测值for yuce_X_num in Yuce: #遍历需要预测Y值的X数组Y_yuce = b * yuce_X_num + a #按照回归系数进行预测X_Y_yece_sum.append(Y_yuce) #把得到的预测值放入预存列表# 3.拼接移动做差every_T = Y[T:] #先把原始数据中一个周期时间点后的数据放到每期中start_X_T = int(len(Y[T:])) #计算原始数据砍去第一个周期后的剩余长度for sum_y in X_Y_yece_sum: #遍历移动求和的预测值every_T.append(sum_y) #把移动求和的预测值添加到每期数据后方便做差方便向前做减for Y_i in list(range(start_X_T, start_X_T + len(X_Y_yece_sum))): #从历史长度之后开始到最后一个位置为止every_T[Y_i] = every_T[Y_i] - sum(every_T[Y_i - T + 1:Y_i]) #减去前面T-1位的合计值(减去前面T-1项的求和)# 5.实际得到的X个周期内的各期值X_Y_every_yuce = every_T[start_X_T:] #把历史数据移除只要预测出来的数据return X_Y_every_yuce #返回这个预测值列表#1.get请求
shuju = requests.get(URL) #用requests模块请求网页
print(shuju) #得到请求状态码检查是否正确请求成功
#print(shuju.content.decode('utf-8')) #返回字节流数据 自己解码,避免乱码
#print(shuju.url) #查看完整url地址,自动帮忙编码
#print(shuju.encoding) # 查看响应头部字符编码
#print(shuju.text) #返回unicode格式的数据 有中文,已经解码 返回字符串
#print(shuju.content) #返回字节流数据 无中文,编码字节#整理得到的数据
liebiao_1= re.split(r'\[',shuju.content.decode('utf-8'))[-1] #把字符串按方括号[切割取后面部分
liebiao_2 = re.split(r']',liebiao_1)[0] #把字符串按方括号]切割取前面部分
liebiao_3 = re.split(r'","|"',liebiao_2) #把字符串按引号和逗号切割
liebiao = [] #建立一个空列表
for x in liebiao_3: #遍历原先切割字符串等得到的列表if x != '': #剔除空集liebiao.append(x) #放回空列表
#print(liebiao)
DaPan = {} #建立个标准字典放数据
for i in range(0,len(liebiao)): #遍历数据的行数DaPan['第'+str(i+1)+'行'] = {} #生成行字典i_biao = re.split(r',',liebiao[i]) #对数据按逗号再切割for k in range(0,len(i_biao)): #遍历切割好的数据到行列表下的列键DaPan['第' + str(i + 1) + '行']['第' + str(k + 1) + '列'] = float(i_biao[k])#标准工作日一年250天,一个周期T=250,一般4年含有一次闰年4T/8T为完整变化,所以选用7*250天的数据,预测第8个250天
Year = 2
#day_1 = get_line_excel(DaPan,1)[-250*Year:] # 日期
open_2 = get_line_excel(DaPan,2)[-250*Year:] # 开盘
end_3 = get_line_excel(DaPan,3)[-250*Year:] # 收盘
max_4 = get_line_excel(DaPan,4)[-250*Year:] # 最高
min_5 = get_line_excel(DaPan,5)[-250*Year:] # 最低
#deal_6 = get_line_excel(DaPan,6)[-250*Year:] # 成交量
#deal_7 = get_line_excel(DaPan,7)[-250*Year:] # 成交额
#FFF_8 = get_line_excel(DaPan,7)[-250*Year:] # 振幅Open = open_2 #原始数据+预测数据
for i in Yuce(open_2,250,1):Open.append(i)END = end_3 #原始数据+预测数据
for m in Yuce(end_3,250,1):END.append(m)Max = max_4 #原始数据+预测数据
for n in Yuce(max_4, 250, 1):Max.append(n)Min = min_5 #原始数据+预测数据
for k in Yuce(min_5, 250, 1):Min.append(k)#可视化看下趋势
import matplotlib.pyplot as plt #用于制定图表
from matplotlib.font_manager import FontProperties #用于设定中文
font = FontProperties(fname=r"C:\windows\fonts\msyh.ttc") #大概是用来指定系统中的中文#1.折线plt.title("大盘股指预测",fontproperties=font,fontsize=15) #给定图标名称并设置字号
plt.xlabel("日序数",fontproperties=font,fontsize=15) #给定X轴名称并设置字号
plt.ylabel("价格",fontproperties=font,fontsize=15) #给定Y轴名称并设置字号
#给定坐标刻度并设置字号,both意思是横竖坐标都包括,labelsize=刻度字号,direction=刻度线朝向,width=刻度线粗细,length=刻度线长度
plt.tick_params(axis='both',labelsize=10,width=1,length=10) #direction='in',不写时自动在外面X = list(range(1,len(Open)+1)) #因为系统对应第一个Y值是0坐标,所以自设X坐标修正
plt.plot(X,Open,0,alpha=1,color='b',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细
plt.plot(X,END,0,alpha=1,color='y',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细
plt.plot(X,Max,0,alpha=1,color='r',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细
plt.plot(X,Min,0,alpha=1,color='g',lw=1) #(x,y)|坐标下限|透明度|颜色|粗细plt.show() #显示内容
如果需要极值线做通道线的,可以将数据浮点化后,再使用这两个函数
def plt_Max(liebiao):Maxbox_num = []for i in range(0, len(liebiao)):if i == 0:if liebiao[i] > liebiao[i + 1]:Maxbox_num.append(i + 1)else:if i == len(liebiao) - 1:if liebiao[i] > liebiao[i - 1]:Maxbox_num.append(i + 1)else:if liebiao[i] > liebiao[i - 1]:if liebiao[i] > liebiao[i + 1]:Maxbox_num.append(i + 1)x_1 = Maxbox_numy_1 = []for i in x_1:y_1.append(x_1[i-1])import matplotlib.pyplot as plt # 用于制定图表from matplotlib.font_manager import FontProperties # 用于设定中文font = FontProperties(fname=r"C:\windows\fonts\msyh.ttc") # 大概是用来指定系统中的中文plt.plot(x_1, y_1, 0, alpha=1, color='g', lw=2) # (x,y)|坐标下限|透明度|颜色|粗细
def plt_Min(liebiao):Minbox_num = []for i in range(0, len(liebiao)):if i == 0:if liebiao[i] < liebiao[i + 1]:Minbox_num.append(i + 1)else:if i == len(liebiao) - 1:if liebiao[i] < liebiao[i - 1]:Minbox_num.append(i + 1)else:if liebiao[i] < liebiao[i - 1]:if liebiao[i] < liebiao[i + 1]:Minbox_num.append(i + 1)x_1 = Minbox_numy_1 = []for i in x_1:y_1.append(x_1[i - 1])import matplotlib.pyplot as plt # 用于制定图表from matplotlib.font_manager import FontProperties # 用于设定中文font = FontProperties(fname=r"C:\windows\fonts\msyh.ttc") # 大概是用来指定系统中的中文plt.plot(x_1, y_1, 0, alpha=1, color='g', lw=2) # (x,y)|坐标下限|透明度|颜色|粗细
这篇关于Python自学第4周反馈:大盘股指,从爬取到预测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!