学生入口学校入口

赛前解读(五) | 数据挖掘竞赛解读

2017-11-01 15:32:32 来源: 您是第位浏览者

 

"登峰杯"数据挖掘竞赛根据现实中的热点事件提出开放性的问题,考察学生利用所学知识思考和解决实际问题的能力。竞赛题目涉及到对实际生活中数据的挖掘与分析,及对问题的探索性思考,需要一定的数学能力,编程能力和论文写作能力。

 

 

伴随着大数据的兴起与普及我们已经正式进入了“数据为王”的时代。“数据”已经不仅仅是计算机领域的概念,更是对社会各行各业产生着颠覆性的改变。据统计机构报道,各行业对“数据分析师”岗位的需求热度日益高涨,其薪酬也始终居高不下。所以,在未来的社会竞争中,谁用有快速获取数据、高效分析数据的能力,谁就能够在竞争中立于不败之地。

 

“数据挖掘”顾名思义,就是在海量的数据中挖掘出有价值知识的方法,也是数据分析中最核心的技术。登峰杯数据挖掘竞赛就是在这样的时代背景下,为高中生搭建了一个学习专业知识、解决实际问题、展现自身才能的平台。

 

对赛题的分析

 

第二届“登峰杯”数据挖掘竞赛初赛,是围绕着对奥运会奖牌榜的预测而展开。其中,赛题分为四个问题,对参赛者进行层层深入的引导,主要包括时间序列预测和影响因素分析两个组成部分。参赛者需要以提交论文的形式参赛,论文中需要体现出完整的数据挖掘解题过程,包括数据收集、模型设计、结果评估和拓展思考四个部分。在论文评分时,四个部分也都有各自的分值及评分标准。

 

 

赛题的难点和能力需求

 

对于高中生来说要想参加“登峰杯”数据挖掘竞赛需要具备一定的专业基础以及规范的研究能力第一个难点在于数据收集,参赛者要首先明确自己研究的国家范围、时间范围,并提出影响奥运奖牌数因素的假设,之后再寻找到权威数据来源并进行规范化存储。第二个难点在于模型设计和优化,参赛者需要具备常用的机器学习模型使用和求解方法,并能够根据实际的结果进行优化和改进。第三个难点在于论文的写作和创新点的打磨,论文需要规范、严谨且有条理,能将研究结果和创新观点全面和透彻地传递给读者。

 

 

常用机器学习模型

 

本赛题一方面考查时间序列预测另一方面考查多影响因素的分析在时间序列预测方面回归分析模型是最常见的方法而更复杂的ARIMA模型、灰色预测模型和一些基于概率的预测模型也能起到很好的效果,不过需要学生具备一定的数学功底。在多因素分析方法,多元线性回归分析是最基础的模型,可以对多种因素的影响程度进行定量分析,并根据置信度检测来排除一些影响不明显因素的干扰。对于有能力的同学,同样可以尝试构建人工神经网络模型进行多因素的预测求解,可以拟合非线性的影响关系,然而要注意避免过拟合情况的发生。

 

在数据挖掘领域模型的求解需要借助计算机来完成常见的程序设计语言python、Rmatlat语言对数据挖掘库都有很好的支持,而较为传统的CC++JAVA等语言同样可以实现模型的构建和求解。另外,ExcelSPSSSAS等数据统计和分析的软件,也可以对大多数模型实现快速的计算求解。

 

文章创新点的选择

 

关于奥运排名预测的题目要求为参赛者提供了非常广阔的创新空间,可选择的创新点包括但不仅限于以下三个方面:

1研究对象的选择方面可以通过对原始数据的观察选取合适国家合适时间段的奥运成绩进行研究例如可以对比苏联解体等国际大事件发生前后国际局势的变化对奥运奖牌分布有怎样影响

2时序预测模型的选择方面由于时间序列预测有诸多模型可供选择参赛选手可以考虑选择单一模型也可以考虑进行模型组合来实现更加精准高效的预测

3)奖牌数影响因素探究方面可以根据自己的经验和媒体的报道充分思考哪些因素会直接或间接影响奖牌数量并基于这些信息提出大胆合理的猜想如果能用计算结果定量地验证一些“意料之外、情理之中”的影响因素,必然会让所有的读者感到眼前一亮。

扫码关注登峰
杯获取更多信息

联系电话:

010-52909593

18310079788

电子邮箱:

dengfengbei@126.com