2024年3月22日发(作者:)

学术研讨
99厂基于金融高频数据与互联网资讯的股价预测研究◊内江师范学院数学与信息科学学院李沁林尹福成陈雪康倩本文选取上证50成分股中的一部分股票作为对象,统计
了
H内金融高频数据以及各交易时间段互联网资讯数量。将
这些数据作为自变量,股价当日与后一日的收盘价是否上涨
作为因变量,采用BP神经网络进行训练,然后收集当天的自
以获取股票所在版块的指数的价格数据,然后做同样的处理。
最后制成一个csv文件用来保存某只股票在某一天的这些属性,
如表1所示。-0.
0044-0.
0066:0.
00034-0. 0006-0.
0044-0.
0044:0.
0022400::-0.
0006-0.
0008:-0.
4002-0.
3692:-0.4053变量带入网络对明天的股价股价是否上涨作出预测。通过五
天的实验,模型平均准确率为70%。-0.1495:0.
0005310.433220. 00224-0.
002200.
000251.
74353-0.
42380-0.
00220-0. 00030. 041151引言随着人工智能技术的不断发展,各大券商、基金公司等推
出了各种各样的股价预测系统,乃至炒股机器人。有的是利用
a对冲来构建可以套利的投资组合,有的是依靠收盘价、开盘
表1所得csv文件示例从表的第一列开始,每一列依次表示:大盘五分钟内最高
价增长率、个股五分钟内最高价增长率、大盘五分钟内最低价
增长率'、个股五分钟内最低价增长率、大盘五分钟内开盘价增
价、最高价、最低价等历史数据从统计的角度来预测股价%本
长率、个股五分钟内开盘价增长率、个股五分钟内的新发新闻
数量、大盘五分钟内收盘价增长率、个股五分钟内收盘价增长
文构建也是从统计的角度来预测股票价格,不同之处是加入了
股票的新闻与股票的其它高频数据一起来预测股价,实现了一
率、大盘五分钟内交易量增长率、个股五分钟内交易增长率。
个自动收集数据并作出预测的器人。每一行代表不同的时间段。第一行到最后一行依次表示从早上
八点开始每5分钟的数据。3.2互联网资讯自动收集模块2模型假设假设互联网资讯对投资者的决策是有影响的,并且由于不
引言提到的,要加入新闻预测股价,必然要构建一个可以
获取新闻的模块。考虑到百度的大蜘蛛系统每五分钟可以爬取
一次全网资讯,本文就直接爬取百度关于股票的搜索结果,免
去了从各大网站分别爬取资讯的苦恼。用python3.6.8+selenium
同的投资者看到新闻的时间不同,新闻发出后的五分钟内一小
部分人看到新闻的人所作出的买卖决定,可以代表随后大多数
投资者看到这条新闻后的想法。通过新闻发出后的五分钟内那
少部分看到新闻的人作出的反应来近似替代新闻对股价的影
响。这样做避免了逐条对新闻的本文内容的挖掘。采用文本挖
来制作新闻爬虫,可以绕开反爬机制。爬虫模块运行后得到的
结果如图1所示。>
j=00
=
{list
2?['半导体投资联盟2020^04月20日1&15','武汉京东方:目前处于产能坡阶段■预计年愿至明年Q1实现S08生产J>
>=01
=
{list
2>
['腾讯新闻
15:45','凰人沸腾!高通突然宣祠华为或成间接惑,深度■鮒东方']>
;=02
=
{list
2;网易新闻2020^04月20日11:52','京东方去年OLED出货量昙涨700%!中国面板商剜抢占鞍市场']>
j=03
=
{list
2)懂狐
2020^04月20日
11:41:
'SS^-捜狈号
1>
j=04
=
{list
2)
r稱202(m)4月20日
1006',
'「制JKS」芯如]>
i=05
=
{list
2)
['RFID世界网202(W04月20日09:23',
K通羣手京东方,生产3D声血纹传感SSOLED柔性屏】>
j=06
=
{list
['金綁
2020^04月20日
01:10',
今日舷>
-=07
=
{list
2)
[«5K
2020^04^190 16:15','量新资讯-搜狐号']>
;=08
=
{list
2)('界动传媒2020^04月19日16:13'.'最近京东方AA索交易參濒岀现.这星進在S95套现资金?']>总09
=
{list
2}
[•手机之家2020^04月19日0221','电子网站游戏网址试玩']■
_len_
=
{int}
10掘既无法得到投资者对于这条新闻真正的反应,实现起来也异
常麻烦。3数据获取3.1股价历史数据收集模块2020^04^2052}这里用python3.6.8+requests3.1.4.0接入新浪股票的API,提
交请求后可以获得最近五天内该股票的五分钟高频数据,包括
开盘价,收盘价,最高价,最低价,成交量这几个属性。后面
®1爬虫模块爬取百度京东方搜索结果爬虫返回的结果与网页直接搜索得到的没有差别,统计交
要对这些数据进行训练,不同股票间的价格相差很大,会对训
练造成不好的影响,所以这里对这几个属性计算它们的增长
率,其结果一般都在-1到1之间。除了个股的价格数据外,还可易时间内的各五分钟时间段的新闻发布数量,与股价数据一起
作为我们最终使用的数据,如表1所示。3.3数据集的制作
100
囱18工科技2021年•第1期选取上证50的部分股票作为对象,运行程序,得到的每一
个csv文件代表了某只股票某一天的股价高频数据与新闻数据。
预测的准❻率0真实值14221%将文件名命名为日期加股票名称,若第二天上涨则放在文件名
fl
測09669.57%为T”的文件夹下,若第二天没有上涨则放在文件名为“0”
的文件夹下。运行程序当天的数据放在“待判断”文件夹下,
1178.5%4522.S%72.58%模型训练后用这些文件对其第二天做预测。84.96%时间〈天〉51.72%70.50%4股价预测模型股价的涨跌与其因素显然是非线性的,还具有复杂的非线
性关系。Universal
approximation
theorem
(
Homik
et
al.,
1989;
Cybenko,
1989)定理表明:前馈神经网络,只需具备单层隐含
图3每天实验餡准确率图4五天预测的混溝矩阵预测的准确率都大于50%,效果较为理想,混淆矩阵如图
4所示。由图4知,网络的精确度度都在70%左右,说明神经网络
确实学习到了一些规律。对下跌的预测灵敏度高达84.96%说明
层和有限个神经单元,就能以任意精度拟合任意复杂度的函
数%这里我们选择BP神经网络对股价做预测,模型的结构如图
2所示。_____________________________________Layer
(type)deme
(Dense)数据中的下跌样本很多,导致模型预测下跌的频率大。6结语互联网资讯与股价高频数据联合预测股价的准确率每日稳
定高于50%,说明了这套方法有很强的实用性。目前已经实现了
OuQ>ut
Shape64)(None,
64)Param#3244801040自动数据收集和预测部分的代码,相关代码已上传到GitHub,
后续可以开发交易模块得到一个基于此方法的全自动炒股机器
activation
(Activation)dense_l
(Deme)(None,
16)(None,
16)人。activatioix_l
(Activatici^034dense_2
Qense)activatiau_2
(Activaticm)(None,
2)(None,
2)[参考文献】[1]
汪意发.面向股价预测的神经网络新闻与量价综合建模研
0Totalparams:
33,522
Trainable
params:
33,522Non—trainable
paranu:
0究[D].哈尔滨工业大学,2018[2]
Mark
R.
Baker,Rajendra
B.
Patil.
Universal
Approximation
图2网络结构Theorem
for
Interval
Neural
Networks[J]
.Reliable
Computing,
199&4
⑶网络从上到下依次为64个神经元的全连接层,relu激活层,
16个神经元的全连接层,relu激活层,2个神经元的全连接层,
基金项目:内江师范学院2018年度大学生科研项目(18NSD-
18)osigmoid激活层
°
损失函数为sparse
categorical
crossentropy
o5结果分析按照上述模型用keras搭建好之后,进行300轮训练,然后将
当天的数据输入网络,得到第二天股票的的预测涨跌,然后与
作者简介:李沁林,男,内江师范学院2017级学生。通信作者:尹福成,男,博士研究生,副教授,研究方向:
数学交叉学科。真实值做对比,重复5天实验每一天准确率如图3所示。(上接98页)子、语法等方面的知识融入
实用性,同时通过丰富且多样的听力内容
式,投其所好,积极引导学生进行自主学
习。虽然小程序在专业教师的指导下对推
V,小程序中设置的文章有长有短、有
使枯燥的听力训练变得生动有趣,提高了
难有易,所涵盖的主题题材丰富,学习者
在阅读文章的同时不仅可以学习语言知
识,还可以通过文章的阅读了解中泰两国
学习积极性。3.4全方位文化展示送上传的学习资源进行了有效且针对性的
筛选,从而为泰语专业学生及泰®^好者
的线上自主学习提供了便利,但知识是随
语言与文化是相辅相成的,文化是语
言的灵魂,学习一门语言就要了解该国的
的政治、经济、文化及当下一些新兴的热
议话题。使学习者在学习语言知识的同时
着时代的发展不断发展变化的,因此小程
文化。卅了”微信小程序不仅拥有丰
富的语言学习资源,还以图片,视频及文
本介绍的方式,详细的对泰国文化进行全
序的运行维护及学习资源的实时更新,需
要小程序开发团队付出大量的时间精力,
也开阔了视野。3.3听力难点突破还需要有一定的稣支持。“泰棒了”微信小程序,在听力方面
方位的展示,使学习者能更多的了解到泰
国的政治、经济、文化、风土人情等。通
与传统的课堂听力相比较,微信小程序有
着更加便捷的操作,省去了一系列的繁琐
【参考文献】[1]
余胜泉,毛芳.非正式学习_e_Leaming
过专有的板块特点,对泰国文化进行详细
的分类,使学习者能够轻松査阅到自己感
步骤,能够满足随时随地想学即学的状
态。小程序里除了以各情景为主题的听力
研究与实践的新领域U].电化教育研,2005
(10):19-23[2]
仝宇光,张丽芳,张玉.国内外移动
兴趣的内容。对话外,还有新闻、访谈、影视剧片段等
听力训练内容,影视剧片段还提供了无字
4结语微信小程序与传统课堂学习模式相结
合,即符合当代大学生“手机控”的特
学习的研究进展及评价[J]•教育与职业,
2017(01):101-106[3]
汤跃明,付晓丽,卜彩丽.近十年移
幕版本及原文字幕翻译版等,使学习者在
练习听力的过程中,能够边听边写,査缺
补漏。改善了传统课堂上的听力内容单一
的问题,使听力更加贴近生活化,突出其
点,也可以使学生借助小程序中丰富的学
习资源提升自己各方面的能力,弥补燧
动学习研究现状评述[J]•中国远程教育,
2016(07):36-43,80课堂教学中的不足,通过大众喜爱的方