量化交易吧 / 数理科学帖子：3369685 新帖：19

机器学习大盘涨跌预测（Random forest ,S

随心所致发表于：5 月 10 日 03：31回复(1)

包括市面主流的机器学习方法，简单看了一下机器学习预测大盘效果，不过因子找的还比较简单。读者可以在此基础补充新的因子，也可以熟悉基本的机器学习命令。

import numpy as npfrom sklearn.linear_model import LogisticRegression

data=attribute_history('000001.XSHG', count=3400,unit='1d',fields=('open', 'close', 'high', 'low', 'volume', 'money'),skip_paused=True, df=True, fq='pre')data=data.dropna()

data.head()

.dataframe thead tr:only-child th { text-align: right; } .dataframe thead th { text-align: left; } .dataframe tbody tr th { vertical-align: top; }

	open	close	high	low	volume	money
2005-01-04	1260.780	1242.770	1260.780	1238.180	816177000.0	4.418452e+09
2005-01-05	1241.682	1251.937	1258.580	1235.746	867865100.0	4.916589e+09
2005-01-06	1252.493	1239.430	1252.735	1234.236	792225400.0	4.381370e+09
2005-01-07	1239.323	1244.746	1256.313	1235.508	894087100.0	5.040042e+09
2005-01-10	1243.576	1252.401	1252.723	1236.089	723468300.0	4.118292e+09

#k线形态data['k_type1']=(data['low']-data['open'])/data['close']data['k_type2']=(data['high']-data['open'])/data['close']data['k_type3']=(data['close']-data['open'])/(data['high']-data['low'])#成交量倍数data['vol_time']=0data['vol_time'][1:]=list(data['volume'])[1:]/data['volume'][:-1]data['vol_time'][0]=1#涨跌data['up_down']=data['close']>data['open']data.head()

/opt/conda/lib/python3.5/site-packages/ipykernel_launcher.py:7: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame

See the c*eats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  import sys

.dataframe thead tr:only-child th { text-align: right; } .dataframe thead th { text-align: left; } .dataframe tbody tr th { vertical-align: top; }

	open	close	high	low	volume	money	k_type1	k_type2	k_type3	vol_time	up_down
2005-01-04	1260.780	1242.770	1260.780	1238.180	816177000.0	4.418452e+09	-0.018185	0.000000	-0.796903	1.000000	False
2005-01-05	1241.682	1251.937	1258.580	1235.746	867865100.0	4.916589e+09	-0.004741	0.013497	0.449111	1.063330	True
2005-01-06	1252.493	1239.430	1252.735	1234.236	792225400.0	4.381370e+09	-0.014730	0.000195	-0.706146	0.912844	False
2005-01-07	1239.323	1244.746	1256.313	1235.508	894087100.0	5.040042e+09	-0.003065	0.013649	0.260658	1.128577	True
2005-01-10	1243.576	1252.401	1252.723	1236.089	723468300.0	4.118292e+09	-0.005978	0.007304	0.530540	0.809170	True

data_train=data[:-200]data_test=data[-200:]X=data_train[['k_type1','k_type2','k_type3','vol_time']][:-1]Y=data_train['up_down'][1:]X_test=data_test[['k_type1','k_type2','k_type3','vol_time']][:-1]Y_test=data_test['up_down'][1:]

from sklearn.linear_model import LogisticRegression#Assumed you h*e, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create logistic regression objectmodel = LogisticRegression()# Train the model using the training sets and check scoremodel.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

(0.5599747474747475, 0.49748743718592964)

from sklearn import tree#Assumed you h*e, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create tree object model = tree.DecisionTreeClassifier(criterion='gini') #model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

(1.0, 0.4824120603015075)

from sklearn import svm#Assumed you h*e, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create SVM classification object model = svm.SVC() model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

(0.5599747474747475, 0.49748743718592964)

from sklearn.naive_bayes import GaussianNBmodel=GaussianNB()model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

(0.5394570707070707, 0.48743718592964824)

from sklearn.nei*ors import KNei*orsClassifier#Assumed you h*e, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create KNei*ors classifier object model model=KNei*orsClassifier(n_nei*ors=6) model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

(0.6641414141414141, 0.5125628140703518)

from sklearn.cluster import KMeans#Assumed you h*e, X (attributes) for training data set and x_test(attributes) of test_dataset# Create KNei*ors classifier object model model = KMeans(n_clusters=2, random_state=0)model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

(0.5205176767676768, 0.49748743718592964)

from sklearn.ensemble import RandomForestClassifier#Assumed you h*e, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create Random Forest objectmodel= RandomForestClassifier()model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

/opt/conda/lib/python3.5/site-packages/sklearn/ensemble/weight_boosting.py:29: DeprecationWarning: numpy.core.umath_tests is an internal NumPy module and should not be imported. It will be removed in a future NumPy release.
  from numpy.core.umath_tests import inner1d

(0.9816919191919192, 0.5527638190954773)

from sklearn.ensemble import GradientBoostingClassifier#Assumed you h*e, X (predictor) and Y (target) for training data set and x_test(predictor) of test_dataset# Create Gradient Boosting Classifier objectmodel= GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0)model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

(0.61489898989899, 0.49748743718592964)

from xgboost import XGBClassifiermodel=XGBClassifier()model.fit(X, Y)np.mean(model.predict(X)==Y),np.mean(model.predict(X_test)==Y_test)

/opt/conda/lib/python3.5/site-packages/sklearn/preprocessing/label.py:171: DeprecationWarning: The truth value of an empty array is ambiguous. Returning False, but in future this will result in an error. Use `array.size > 0` to check that an array is not empty.
  if diff:
/opt/conda/lib/python3.5/site-packages/sklearn/preprocessing/label.py:171: DeprecationWarning: The truth value of an empty array is ambiguous. Returning False, but in future this will result in an error. Use `array.size > 0` to check that an array is not empty.
  if diff:

(0.6609848484848485, 0.5376884422110553)

全部回复

0/140

本社区仅针对特定人员开放

查看需注册登录并通过风险意识测评

5秒后跳转登录页面...

达人推荐

关注
时间都去哪了

粉丝:555

帖子数:0

时间都去哪了

0帖子5关注555粉丝

关注拉黑私信
关注
李强bruce

粉丝:676

帖子数:391

交易匠人：震荡行情多耐心，黄金早间有望延续...

交易匠人：黄金震荡回踩1708，有波段机会

李强bruce

391帖子0关注676粉丝

关注拉黑私信
关注
陈阿浪

粉丝:708

帖子数:7

借花（感恩节）献佛感恩回顾

美股再次暴跌，但黄金却无动于衷

陈阿浪

7帖子0关注708粉丝

关注拉黑私信

量化课程

移动端课程

量化交易吧 / 数理科学 帖子：3369685 新帖：19

机器学习大盘涨跌预测（Random forest ,S

随心所致发表于：5 月 10 日 03：31回复(1)

全部回复

0/140

粉丝:555

帖子数:0

粉丝:676

帖子数:391

粉丝:708

帖子数:7

量化课程

热门标签

删除回复

确认要删除这篇文章么？

举报用户

信息提示

该文章已删除

设置置顶

完成设置【置顶】！

设置置顶

已取消设置【置顶】！

设置精华

完成设置【精华】！

设置精华

已取消设置【精华】！

审核信息

该文章已审核通过

审核信息

您已设置该文章审核不通过

举报成功

您已举报成功

用户登录

移动帖子

创建私信

屏蔽提示

确认要屏蔽该用户么？

屏蔽回复

您已对该用户实现屏蔽

信息回复

已发送成功

量化交易吧 / 数理科学帖子：3369685 新帖：19