
天猫双十一数据
-
2023年2月15日发(作者:)2143亿!2018年天猫“双11”成交总额是这样预测的
基于机器学习⽅法对销售预测
刚刚过去的双⼗⼀,⼤家可能更关⼼的是双⼗⼀的折扣,什么商品打了什么折扣。但是对于天猫⽽⾔,他们可能更关⼼
的是双⼗⼀当天的销售额是多少,因为知道销售额,他就能提前做⼀个准备,做到未⾬绸缪。
2016年我们这边有三组数据,第⼀组是在双⼗⼀的前⼗天,⽹上有⼀个专家预测,双⼗⼀是1180亿,7天以后马云放出
豪⾔,说今年的双⼗⼀可能要突破1500亿,去年是920多亿。在双⼗⼀的前⼀天,⽹上有⼀个专家预测了今年的双⼗⼀
是1200亿,最后双⼗⼀是1207亿。
这⾥有两个问题,第⼀个问题,预测是怎么做出来的?第⼆个问题是:对于同⼀件事情它是预测出不同的结果,什么结
果是好与坏?第⼀个问题是怎么预测的问题,第⼆个问题是预测的效果好与坏的问题。
机器学习是常⽤的⽇常分析的⽅法,另⼀⽅⾯机器学习在海量数据中挖掘其中的规律效果⾮常好。
⾸先,说说,销售预测的现状和痛点。销售只是⼀个商业问题,要做的是满⾜⽤户的需求,同时对后续的运营做主导。
⽽且它的⽬的并不仅是增加企业的销量,⽽是能够让企业能够获利,利润增加,所以它是⼀个商业问题。
对于这样⼀个商业问题,它在商业环境⾥⾯地位是显⽽易见的,这⾥⾯有物流、库存、促销、财务等等四个⽅⾯的作
⽤。对于销售预测的痛点,有三⽅⾯:①商业环境变化莫测,要做到预测⾮常准确可能会⽐较困难;②销售预测并不是⼀
个纯粹的销售预测,它与企业的整体的反应链相关的;③有企业产品⽐较单⼀,或者是服务⽐较单⼀,想要通过这个销售
预测来做这个指导,来指导研发新的产品,或者是通过价格进⾏动态定价。
在我看来,我觉得核⼼的痛点就是预测的精确性的问题,也就是第⼀个痛点。如果第⼀个痛点很好的解决掉,后⾯痛点
就很好解决。预测的精确性为什么是核⼼的痛点呢?这⾥⾯就要从预测开始讲起,我们对⼀个事件进⾏预测是这样⼀个
过程,就是基于历史的情况进⾏推演出⼀个规律,通过这个规律来进⾏推演到未来。它的特点就是我的短期的预测的精
度要远远⾼于长期的预测的精度,即,未来⼀周的预测要⽐未来三个⽉的精度要⾼。
同时对于预测的话,我们会有⼏个⽅⾯的假设,第⼀⽅⾯是变化模式,其实就是数据⾥⾯的规律,它是我们对于这个待
预测事物的了解因素。⽐如说你要去预测明天彩票的号码,我们已经通过对彩票的分析我们知道没有因素是可以影响它
的,所以我们是预测不了明天的彩票。这是第⼀个变化模式。
第⼆⽅⾯,我们要基于数据来做,你的数据量太少,我们这边也做不了,就是⼀定要达到数据量的级别我们才能做数据
挖掘,或者机器学习。
第三⽅⾯,我们做机器学习,我们做预测,都会有⼀个理论框架,在整个理论框架下我们才能做,才能落地。所以这三
⽅⾯就构成了我们今天要讲的销售预测的体系框架。销售预测体系框架到底是什么呢?
其框架就是销售预测的基本步骤,即确定预测⽬标、收集和理解数据、建⽴模型和评价指标。
销售预测的基本步骤
第⼀步,确定预测⽬标:⾸先要研究⼀下它的预测的对象,⽐如我要预测⾐服,⾐服是冬天的⾐服,肯定是有季节性
的,预测对象不⼀样,场景不⼀样,我们预测的⽅法也会不⼀样。
同时,做销售预测⼀般会有⼀个预期,我们希望这预测做未来4周的预测,还是未来5天的预测,这是有⼀个短期的预测
和长期的预测。如果是希望太⾼的话我们可能达不到,希望太⼩,我们花费了这么多的时间和精⼒。通常⽽⾔,你要预
测未来⼀个⽉的销量,⾄少需要两年的数据。
此外,因为需要跟业务进⾏对接,所以业务⽬标也很重要。⼀⽅⾯是模型的精确性,即,我们可以给出⼀个精确度,另
⼀⽅⾯是模型的可解释性,即,我们的结果更多是要根据后⾯的业务部门来进⾏交接,进⾏沟通,这时候你就不能解
释,好与不好为什么,这要带有可解释性。
释,好与不好为什么,这要带有可解释性。
综上所需,确定预测⽬标要分两⽅⾯进⾏权衡,即预测精确性和模型可解释性。
第⼆步,收集数据或理解数据阶段。⽽这⼀步通常包括三个⼩的⼦步骤,即:收集数据、数据探索和数据预处理。要尽
可能多的获得数据,同时,还要理解数据背后的故事与含义。这⾥有⼀个⼩故事:我当时在做项⽬的时候,我当时电商
的销售预测的时候,我看了⼀下库存,⼀般来说你卖出⼀件商品库存就会减,但是我在数据库⾥看库存为什么是负值
呢?我就和业务部门进⾏沟通,原来他们把库存的默认值就是负值。这就是对于我们在做预测的时候,对数据背后的含
义⼀定要理解清楚。这是⼀个数据探索。
⽽数据探索,其⽬的是为了更好地发现数据的规律,对应⽤建模提供⼀个指导⽅案。
数据预处理是因为同时收集的原始数据可能⾮常脏、质量⾮常差,需要做数据清洗。数据预处理的⽅法很多,这⾥主要
介绍两个数据预处理⽅法,缺失值处理和数据转换。缺失值处理是指,发现缺失值的时候,需要理解缺失背后的原因是
什么,是数据库的技术问题还是真正业务的原因导致它缺失?如果是后者业务原因导致缺失,我们再来考虑怎么处理缺
失值,处理缺失值的⽅法⼤体有两类:直接删除法和插补法。直接删除法是将缺失率较⾼的特征或样本数据进⾏删除,
⽽插补法是通过已有的数据对缺失值进⾏填补。⽽数据变换是指数据的分布与我们假设的数学模型会不⼀样,这样的数
据将会对预测精度会有⼀定的影响。因此,导⼊模型之前我们就要把数据进⾏变换,⼀般有两种⽅法:直接对数据进⾏
变换、Box-Cax变换。
第三步是应⽤建模。销售预测的⽅法有很多种类,本报告主要是介绍以下三类:第⼀类就叫主观预测法,即,专家法;第
⼆类是时间序列法,即指数平滑法和⾃回归移动模型;第三类是机器学习中的回归算法。
销售预测的基本⽅法
专家法是指通过⼈的判断,⼈的经验对于未来的销售做⼀个预测,它的优点是⽐较快速,⽐较简单,就是很快就能够给
⼀个结果。缺点就是我们预测的结果跟你预测的结果都不⼀样,带有差异性。这个专家法其实很多公司在前期他们都是
⽤专家法来进⾏预测的。还有我们的客户他们在刚成⽴的电商,他也是⽤专家法来做的。
时间序列的⽅法中最简单是指数平滑法。它的特点是“重近轻远”,即通过不同的权重来控制预测的精度。优点是简单、
适合于趋势预测;缺点是精确率不⾼。
ARIMA模型是相对⽐较复杂⼀点,其原理是⽤销量去预测未来销量
⽆论是指数平滑还是ARIMA模型,其预测对于趋势性较强的数据集效果⽐较好,但如果遇到趋势不那么强的数据集,则
效果不太理想,这时,可以考虑⽤机器学习的⽅法进⾏销售预测。
机器学习的整体流程为:⾸先,将数据集划分为训练集和测试集,其次,对于训练集做特征筛选,提取有信息量的特征
变量,⽽筛除掉⽆信息等⼲扰特征变量,再次,应⽤算法建⽴模型,最后,结合测试集对算法模型的输出参数进⾏优
化。
这⾥主要介绍线性回归模型、决策树(回归树)模型、随机森林、xgboost、神经⽹络、⽀持向量回归等六种算法模型。
线性回归模型:假设销量与影响销量的因素是线性关系的,包括误差分布、线性⽅程和激活函数等。
决策树(回归):其原理是通过if-then规则对特征变量进⾏逐步决策来构建的模型。此处,可以举⼀个例⼦来简单讲解决
策树算法的思想是什么?⽐如说我想给⼀个妹纸进⾏颜值评分,分值范围为[0,10]。评分的第⼀轮判断是五官是否端正?
如果为否,打3分;如果为是,则进⾏第⼆轮判断,即⾝材,⾝材不好则打5分。⾝材好的话再进⼊第三轮判断,即是否
有钱,有钱就是典型的⽩富美,就是9分。没钱则为7分。从图中可以看出,其判断决策的过程倒过来看是⼀个树,红⾊
是它的叶⼦,叶⼦对应他的分值,黄⾊是变量。
是它的叶⼦,叶⼦对应他的分值,黄⾊是变量。
随机森林是从决策树演变⽽成的⼀个算法,但其思想与决策树相⽐增加了集成思想。同时,其“随机”具有两层含义,第
⼀层是对特征变量进⾏随机选择。第⼆层是,对训练集样本进⾏随机选择。
xgboost是基于传统的GBDT算法进⾏了优化的集成算法,它是数据挖掘⼤赛上⾯得分⾮常⾼的算法。它的思想是这样
的,我给⼀个数据集,我现在有⼀个问题,就是要看他⼀家⼈当中是否会喜欢电⼦游戏,也是通过构建树的情况进⾏判
断,⽐如年龄、性别进⾏判断,它会反映这个家庭成员对应的我们的样本会打⼀个分,最后男孩给2分,⼥孩给1分。有
时候我们⼀棵树确定不了,我们就规定多棵树,树1和树2之间并不是独⽴的,第⼀棵树的时候对样本做第⼀次判断,判
断的时候有对和错,但是我会更关注于我判断错的那⼀部分,我在规定第2棵树的时候,我把预测错的更多的考虑⼀
下,就会变成第2棵树,我会过多的关注那些预测错的,再依次的来进⾏优化。
神经⽹络是指模拟⼤脑神经元的⼯作的⾮线性模型,神经⽹络是现在最⽕的⼀个深度学习的基础。其包括三个部分:输
⼊层、隐藏层和输出层。输⼊层在销售预测中则为影响销量变换的各相关因素变量;输出层为销量;中间隐藏层为各相关
因素变量到销量之间的⼀个⾮线性映射关系,通常为⼀个函数
神经⽹络是在反欺诈领域⽤得⽐较多,像现在的银⾏、互联⽹⾦融,有的⼈进⾏欺骗性的贷款,就⽤神经⽹络可以很快
的把他发现出来。还有检测病⼈也可以⽤到神经⽹络。
⽀持向量回归其本质是跟SVM是⼀样,即寻找能使回归局域更⼤的margin,其适⽤于⼩数据集和⾼维数据集。
到⽬前为⽌,已经简单介绍了六种常⽤于销售预测的机器学习⽅法,这些算法也就很好地回答了前⾯“双⼗⼀”销售额例
⼦的第⼀个问题,即如何进⾏销售预测?
销售预测效果评估
第四步是评价指标,即预测效果好与坏的问题。对此问题,我想从两个⽅⾯跟⼤家进⾏分享,即评估⽅法论和评估的定
量指标。第⼀⽅⾯,⽅法论K折交叉验证。其基本思想为:将总数据集均匀划分为k等份(假设取k=10),第⼀次对数据集
进⾏划分过程为:第⼀份作为测试值,验证这个模型,剩下第2到第10个做训练集。第⼆次划分过程为:把第2个作为测
试值,剩下9个作为训练集,然后依次进⾏训练集和数据集划分,⼀共会,得到10个模型,选择最⼩的作为我们最终的
模型。
第⼆⽅⾯是评估指标RMSE,值越⼩,说明预测值与真实值之间的差异就越⼩,模型效果就越好。
项⽬案例
下⾯我们进⼊机器学习的实战部分。我会⼤家看⼀下案例在上述理论框架的效果怎么样。
第⼀步,确定预测⽬标是为某类商品历史销量排⾏前20的单个商品进⾏未来7天的预测。
第⼆步,收集和理解数据,本案例⼀种为六⼤维度72个指标。其实,影响销量变化的因素错中复杂,除了本⾝历史销量
外,还有⼀些:⽐如说竞争对⼿的因素、促销因素、新闻热点因素、⼝碑因素、随机事件因素、⾮技术因素等等,但
是,对于算法建模⽽⾔,我们需要把有数据⽀持的、并且能够可控的影响销量的相关因素考虑进去,因此,才得出了六
⼤维度72个指标(特征变量)体系。
我们对72个指标(特征变量)进⾏了数据探索,这⾥以节假⽇等级与销量的关系为例,通过对数据探索发现了⼀条规律,
我们对72个指标(特征变量)进⾏了数据探索,这⾥以节假⽇等级与销量的关系为例,通过对数据探索发现了⼀条规律,
即:节假⽇等级越⾼,销量会越好。
第三步为应⽤建模,我们使⽤了6个机器学习模型和1个ARIMA模型对该案例进⾏了预测建模,其结果如上图所⽰,该
结果对⽐图横坐标是真实销量值,纵坐标为算法模型预测值。不同颜⾊的线对应不同的算法预测结果拟合线,中间45°
虚线为参考线,与参考线越近的算法,其效果越好。从图可以看出xgboost和随机森林两个算法的效果是⽐较好的。
第四步为评价指标,这⾥不仅输出RMSE值,⽽且还将历史销量与未来预测销量进⾏可视化展⽰,即如上图所⽰。
我们对所有的预测算法进⾏了总结,包括预处理、变量筛选⽅法、可解释性和精确性等内容。
同时,我们也对基于机器学习对销售预测的研究进⾏了总结,主要分机器学习、数据、效果和业务四个⽅⾯。
第⼀⽅⾯是机器学习层⾯,即机器学习可能更多的是关注相关关系。做销售预测,我们只⽤到了跟销量变化有关的因素
变量,⽽不是因果变量。有些客户会问我们:现在我要提⾼商品销量,请你们算法⼈员告诉我调哪些参数能够让销量增
加?其实这就是⼀个不合理的需求,因为我是做预测的时候我们⽤到机器学习的模型,我只是⽤到像库存、价格、节假
⽇,是跟销量⽆关系的,但是并不是默认认为库存⾼就⼀定会影响销量的增加,库存低就⼀定影响销量减⼩。因为后者
它是⼀个因果关系,⽽我们做机器学习⽤的是⼀个相关性的关系。
第⼆⽅⾯是数据的层⾯,没有数据或数据质量差,效果就会较差,业界流⾏⼀句话“垃圾进垃圾出”就是指数据。
第三⽅⾯是效果层⾯。其实,效果是评估⼀个模型对于好与坏。对于销售预测⽽⾔,其效果可能主要体现在是否增加企
业的利润。但是这样的效果不太好评论,因为这不仅仅要考虑预测的精度、模型的可解释性等算法效果,还要考虑企业
的供应链、整体能⼒等。不能将机器学习的预测效果作为衡量企业是否增加利润的惟⼀标准。
第四⽅⾯是业务层⾯,即在机器学习训练之前的数据预处理、训练之中以及训练之后的模型评估都需要⼀定的业务理论
作为指导。尝若业务理论偏弱,则可能会影响整个建模过程,其效果也会受到影响。⽽且我们是从算法的⾓度,解决的
是算法的问题,但是算法的问题,最终还是要回到我们业务问题,在销售预测上我们要回到怎么样提⾼业绩。
销售预测终究还是⼀个商业问题,我们只是从数据层⾯,从算法层⾯很难能够很好的把这个商业问题解决掉。我们认为
这个效果已经⽐较好了,其实是⽐那种⼤数据的精准营销、精准预测还是有⼀段的距离要⾛。
⾸先说⼀个众所周知的数据:2017年双⼗⼀天猫成交额1682亿。
所以今天,从三个⾓度带你⼀起去探索1682亿背后的秘密:
1、全⽹热度分析:双⼗⼀活动在全⽹的热度变化趋势、关注来源、媒体来源以及关联词分析。
2、各平台对⽐分析:针对“天猫”“京东”“苏宁”等⼀些电商平台的销售额以及粉丝画像进⾏对⽐分析。
3、天猫销售额分析:通过天猫的⼀些具体销售额进⾏分析,了解各品类、各地区分布情况以及历年销售额的变化、并
对2018年销售总额进⾏⼤胆预测。
⼀、全⽹热度分析
(1)“双⼗⼀”热度
(微舆情)
在双⼗⼀前后的72⼩时之内关于“双⼗⼀”的讨论热度⾼达80.21,话题感满满啊,⼤家都要成为爱吐槽的段⼦⼿了。
在双⼗⼀前后的72⼩时之内关于“双⼗⼀”的讨论热度⾼达80.21,话题感满满啊,⼤家都要成为爱吐槽的段⼦⼿了。
(2)微博传播趋势
(热词整体趋势)
通过微指数对“双⼗⼀”的趋势分析,可以看出,前期热度呈波动趋势,但双⼗⼀当天迅速飙升⾄2520K左右,⼤家对
于“剁⼿”这件事是真的很关注,购买⼒就更不⽤多说了吧~
(3)关注来源
(PC&移动端热词趋势)
从近⼀个⽉的PC&移动端趋势⾛向可以看出全⽹的关注度来源,移动端⼤概是PC端的4倍,更是占到总体趋势的80%以
上,这说明⼤部分关注⽤户是⽤⼿机等其他移动设备进⾏搜索,最⾼热度值达到2038K。
(4)媒体来源
在双⼗⼀中,媒体来源的信息量TOP3依次为微博、⽹站和论坛。
(5)关联词
通过对双⼗⼀的相关信息进⾏分析,与核⼼词关联度最⾼的词语依次是“包装”、“纸箱”、“电商”。话说,你的快递都收到
了么?
(6)头条关键词热度趋势
根据头条指数的热词分析,“马云爸爸”果然不出意料的获得了第⼀名,在双⼗⼀期间他也有借⽤⾃⼰的电影《功守道》
来提⾼⾃⼰的曝光率,指数值⾼达240万以上~
(7)百度指数热度趋势
(BDP⾯积图)
通过百度指数近7天的热词趋势,我们可以看出,在本次“双11”开始前,⼤家对于各电商平台的讨论热度居⾼不下,呈
直线飙升趋势,在“双11”当天达到最⾼值。其中“淘宝”、“京东”、“唯品会”等电商平台⼀度成为⼤众关注的焦点。
(8)微信指数热度趋势
(BDP⾃定义图表)
如图所⽰,微信指数近7⽇热度最⾼的是“双⼗⼀”,其次是“快递”,“淘宝”位居第三。看来,痛快的买买买之后,⼤家还
是⽐较关⼼什么时候可以收到剁⼿的产物啊,有快递在路上的⽇⼦,⼀切都有了盼头~
⼆、各平台对⽐分析
(1)各平台总销售额对⽐
(1)各平台总销售额对⽐
(BDP环形图)
以上是某数据对20家B2C电商平台的监测结果,在双⼗⼀销售额⽅⾯,天猫销售额稳居全⽹第⼀,占⽐66.23%,京东
占⽐21.41%,苏宁易购占⽐4.34%,亚马逊占⽐1.95%,唯品会占⽐3.43%,其他电商平台占⽐2.64%。
如此显赫的数据,直接体现了“双11”线上⼈群强⼤的购买⼒,同时也代表着中国新零售能量的爆发。嘿!咱们⼜为建设
美好的社会主义国家贡献了⾃⼰的⼀份⼒!
(2)各平台海外购销售额占⽐
(BDP⾃定义图表)
根据上图,能够很清晰地看出2017年双11各平台海外购销售额占⽐情况,亚马逊为7.3%稳居第⼀,天猫为5.4%,京东
为4.9%,苏宁为0.6%,唯品会为3.7%。
原来11.11这个节⽇已经不单单只是亿万国⼈的狂欢,还有越来越多的海外多个国家的加⼊,⼀个个数据体现的是⼀种
新经济和新消费模式。
(3)粉丝画像对⽐
(微舆情)
针对淘宝和京东两家粉丝进⾏了对⽐,可以看出淘宝的⼥性粉丝是远多于男性的,京东的男⼥⽐例分布⽐较平均,这与
京东最初主打数码家电⾏业有密不可分的关系。
⽽两家粉丝的年龄分布相差不多,都集中在年轻⼈这⾥,看来50岁以上的⼈群还是待开发的⽤户群啊~
(微舆情)
根据微舆情的情绪地图可以看出在双⼗⼀之后⽤户通过微博展现出来的情绪,最显著的就是:喜悦。其中最“喜悦”的是
⼴东地区⽤户,⼤概是因为他们的快递正在路上,抑制不住内⼼的兴奋吧,哈哈~
三、天猫销售额分析
(1)天猫历年“双11”销售额
(BDP双轴图)
2009年之前,天猫还叫淘宝商城,“双11”销售额是5200万,27个品牌参与了活动;
2010年,“双11”的成交额以惊⼈的速度增长,总成交额9.36亿;
2011年,“双11”总成交额达到了33.6亿。“双11”这个在⼤家的概念⾥原本只是光棍节的⽇⼦彻底⽕了;
2012年,淘宝商城正式更名为天猫,“双11”线上总成交额达到191亿,“双11”热潮从线上覆盖到线下,成为⼀个全民总
动员的节⽇;
2013年,天猫“双11”交易总额达到362亿元,交易额⼤幅提升;
2014年,双11趋势呈现全球化,全天交易额达571亿元;
2015年,双11的最终交易额达到912.17亿元,覆盖了232个国家和地区;
2016年,天猫双11全球狂欢节全天总交易额达到1207亿元;
2017年,“双11”天猫交易额总计达1682亿,各项数据仍然不断刷新前⼏年的记录。
(2)2017年&2016年天猫“双11”成交额
(BDP对⽐条形图)
盘点今年双11交易额重要数据,从11⽇0时开始销售额⼀直不断上升⾄11⽉12⽇0时,天猫“双11”指挥中⼼⼤屏幕上的
数据最终停留在1682亿元。看了上图终于知道为什么购物车⾥的商品分分钟就不见了!!这是在跟⼏亿⼈作⽃争啊!
(3)2017天猫“双11”各地区销售额
(BDP⾯积地图)
在这场全民剁⼿热潮中,⼴东⼈民消费⼒杠杠滴,位居全国第⼀,浙江、江苏⼈民也贡献了不俗的“战绩”!北、上的⼈
民怎么⽢愿落后呢,这销量也是紧随其后啊!据统计,2017年“双11”共产⽣包裹13.8亿个,快递⼩哥正在努⼒将你的包
裹送到⼿中哟。
(4)天猫全⽹成交额产品类别排名
(BDP⾃定义图表)
(BDP柱状图)
2017年“双11”所有成交产品中,产品品类排名前⼏分别是:⼤家电销售额占⽐15.2%,⼿机销售额占⽐8.7%,个⼈护理
品占⽐5.6%,母婴⽤品占⽐3.6%,⽣活电器占⽐2.8%,彩妆占⽐2.5%。
其中销售量Top1的⼤家电排名如下:在⼤家电品牌中,海尔销量稳居第⼀,美的、夏普其次,之后依次是:西门⼦、
格⼒、海信、⼩⽶、TCL、⼩天鹅、奥克斯。
2018年预测
最后让我们根据以往的数据⼤胆预测⼀下,2018年天猫“双11”全球购物狂欢节的成交总额:2146亿元!让我们记住这个
数字,看看国⼈的购买⼒会不会超过机器预估能⼒~
textCNN和lightGBM模型对景区⼝碑评价进⾏情感分析
2018司法⼈⼯智能:罪名预测、刑期预测、法条推荐
基于CNN的中⽂⽂本分类算法(可应⽤于垃圾⽂本过滤、情感分析等场景)
激活函数有哪些性质?
1.⾮线性:当激活函数是线性的,⼀个两层的神经⽹络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数
的时候,即f(x)=x,就不满⾜这个性质,⽽且如果MLP使⽤的是恒等激活函数,那么其实整个⽹络跟单层神经⽹络是
等价的;
2.可微性:当优化⽅法是基于梯度的时候,就体现了该性质;
3.单调性:当激活函数是单调的时候,单层⽹络能够保证是凸函数;
4.f(x)≈x:当激活函数满⾜这个性质的时候,如果参数的初始化是随机的较⼩值,
那么神经⽹络的训练将会很⾼效;如果不满⾜这个性质,那么就需要详细地去设置初始值;
5.输出值的范围:当激活函数输出值是有限的时候,基于梯度的优化⽅法会更加稳定,因为特征的表⽰受有限权值的影
响更显著;当激活函数的输出是⽆限的时候,模型的训练会更加⾼效,不过在这种情况⼩,⼀般需要更⼩的Learning
Rate。