推荐 资讯 标准 培训 考试 大赛 关于我们
  联系电话:010-82895227
首届工业大数据赛项说明
竞赛采用实践操作技能和技术答辩相结合的方式。第一部分实践操作技能,首先按照任务要求对Hadoop平台进行安装部署操作,再依据给定的数据源、大数据实验环境以及赛场预先安装的软件等,按照任务书要求,完成数据整合、数据存储、数据分析、数据可视化等过程,最终形成完整的工业大数据分析报告,提出合理化建议。然后结合第二部分技术答辩给出综合评分。
竞赛时间5小时,竞赛连续进行。
(一)Hadoop平台安装部署
参赛选手依据任务要求,对Hadoop平台进行安装部署和基本配置。主要内容包括:Hadoop集群节点的动态增加与删除、Hadoop集群的负载均衡、HDFS常用操作命令(查询文件类别、上传、删除文件、查询HDFS基本统计信息等)。
(二)数据整合
参赛选手根据现场提供的不同格式的数据源,通过整理、清洗、转化、合并等过程,形成完整的单一有效数据源。该模块主要考察选手对混乱数据、脏数据进行数据整合的能力,使数据和信息集中化,提高资源利用效率。
(三)数据存储
参赛选手在比赛提供的大数据平台环境下,通过已安装好的大数据平台组件,把整合好的数据或数据库的数据,存储到大数据平台指定路径中。该模块主要考核选手应用大数据相关组件将大数据集存储能力。
(四)数据分析
数据分析包含了数据描述性统计分析和数据建模分析两项内容如下:
数据描述性统计分析部分,参赛选手需熟悉Pig、Hive、Impala等大数据分析相关组件,运用SQL语句,查询hdfs上需要分析的数据,根据任务要求,计算出最大值、最小值、均值、中位数、众数、方差等常规统计分析指标。
    数据建模分析部分,参赛选手根据描述统计分析得出的正确指标,选择适当的数学模型,利用Spark大数据计算引擎,进行迭代计算。发现工业大数据中存在的异常点,预测未来发展变化趋势。
(五)数据可视化
参赛选手利用比赛预装软件,借助于图形化手段,选择适当的表现形式,清晰有效地传达数据分析的结果。该模块主要考核选手对分析结果有效展示的能力。
(六)报告撰写
参赛选手按照要求,结合数据分析结论和数据可视化产品,输出完整规范的数据分析报告。报告要求量化规范、重点突出、逻辑清晰、思维严谨、有创新点等。该模块主要考核选手数据分析专业文档编辑能力。
(七)技术答辩
通过对完成情况和数据分析报告质量分析,阐述工业大数据分析得到的结论。答辩中要了解:选手对工业大数据整个产品全生命周期各个环节产生的各类数据及相关技术的知识掌握程度。选手须根据给定场景,从数据采集、数据整合、数据存储、数据分析、数据可视化五个方面对项目进行准备.

首届工业大数据技术规程下载http://www.chinajxedu.com/uploadfile/2019/0405/20190405055352100.pdf