本文主要是介绍python回归问题数据处理问题--自变量,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
用各种回归模型进行建模之前最重要的就是处理数据,今天我想对机票价格和时间进行建模,自变量是时间。我用了list放时间数据,同样用list放价格数据。看下时间数据的数据格式:
然后进行fit
clf=linear_model.Ridge(alpha=1.0)
for j in range(T):clf.fit(label0,minprice)
发现会报错:
大概意思就是我的自变量shape只有1~但是明明我是一个不止一个字段的list啊!!仔细思考一下明白了:处理的时候python把整个list当做一个整体处理了,这样就不符合自变量和因变量大小相同的要求了。。。
接着找了一下别人处理数据的方式
# Function to get data
def get_data(file_name):data = pd.read_csv(file_name)X_parameter = []Y_parameter = []for single_square_feet ,single_price_value in zip(data['square_feet'],data['price']):X_parameter.append([float(single_square_feet)])Y_parameter.append(float(single_price_value))return X_parameter,Y_parameter
注意倒数第三行
X_parameter.append([float(single_square_feet)])
这里每次append之前加了一个[],其实就是用了嵌套的list,这样就不会把整个list看成一个数据字段了!!看一下这样做的数据格式:(没有截图,示意一下)
[['2015-09-21'],['2015-09-22']]
另外还有一种方法label=mat(label).T,就是把数据转化成一个矩阵。。。虽然并不太理解这样做的道理。。。
这篇关于python回归问题数据处理问题--自变量的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!