最近用LSTM神经网络做了一下财务选股,自己是刚自学的小白,因为处理的是三维数据,也即面板数据,在网上有的报错没有直接的处理办法,对中间出现的报错,有一些自己的理解,如果不对,还希望大家指正。一起进步
分享一下处理经验:
1.
一个是shape()、reshape()函数的问题,经常会有:
ValueError:cannot reshape array of size 220110 into <870,7,36>
这其实是对这两个函数的理解问题,文档里说的比较不好理解,通俗一点就是shape(a,b,c)、reshape(a,b,c)
其实就是reshape(样本多少个,每个样本中有几组变量的个数,每个变量中又有几个多少分支)
reshape(870只股票,7年,每年36个变量)
shape函数同上
这样只要调节870736和size 数值相等即可
2.
ValueError: Input 0 is incompatible with layer lstm_3 :expected ndim=3 , found ndim=2
这个问题是对LSTM的原理不够理解,LSTM处理的是三维数据变量,你要是输入一个矩阵那是不对的。换句话说,要求的是面板数据,输入的却是截面数据。那有一个维度上没有数据,那一定处理不了。
因此输入的结构从(7,36)改为(870,7,36)即可
3.
ValueError: Error when checking target : expected dense_1 to have 3 dimensions , but got array with shape <75,1>
这个问题说的其实还是三维的输入需求,只输入了二维,要把二维数据转换为三维的。转换代码我会附在后边
4.
ValueError: Error when checking target : expected dense_1 to have shape <1, > , but got array with shape <7, >
这个问题,其实是一个dense层只能处理一个向量,或者说一个年份的数据。但现在输入了7个,因为是7年的预测结果,因此,把dense层的神经元数量由1个改为7个就能够装得下7个输入了
因为excel导入的数据都是pandas的二维,所以要将其先转换为numpy然后再转为3为pandas的pannels数据
下面是二维转三维的输入代码:
输入excel数据时的转换:
inputfile = 'D:\input.xls'
data = pd.read_excel(inputfile) #读取数据
data_train0 = data.copy() #复制一下数据建模
data_train1=data_train0.values
data_train=data_train1.reshape(870,7,36)
x_train = data_train #特征数据
导出excel数据时的转换
三维转二维,转为dataframe
datap0是上边data_train经过运算后的三维数据,数据结构和data_train一致,即(870,7,36)
datap1=datap0.reshape(870,7)
datap2=np.array(datap1)
datap=pd.DataFrame(datap2)
datap.to_excel('D:\prey.xls')
最后,附上选出的股票预测图,选了一些能反映企业真实运行状况的指标,将作出的模型,应用在沪深300池和上证50池中,选出前十,然后用等比例资金配置,简单跑一下回测,就是简单的买入持有策略,10个下单命令就是全部代码,不换股票,只维持10%的比例。得到的效果还是跑赢了上证指数的
沪深300池中
上证50池中
这说明的问题还是比较深刻