第979章:她已经尽力了(1 / 2)

 赛题很长,有整整一页。

前面是一大段关于赛题的介绍。

唐苏总结了一下,就是需要对赛题提供的虚拟网站的数据进行爬取、清洗、整理、计算、表达、分析,最后要用图表的形式实现数据可视化。

虽然只是初赛,但是唐苏感觉赛题的难度真的有点大,尤其是她们现在才大一,一些专业知识没有学过,甚至也没有上过数据可视化相关的课程。

唐苏倒是自学过数据可视化的一些课程,但是并不深入。

唐苏点开赛题上给出连接,准备开始爬取数据。

但她还未操作,就见一些同学离场了。

唐苏看了一下,离场的竟然包括自己寝室的同学杨璐和仇晓。有将近二三十个同学离场了,其中很多是自己的同学。

唐苏深吸一口气。

看来很多同学对于这个赛题是无从下手吧,或者因为没有掌握相关的一些技能,而不得不放弃比赛。

唐苏不管其他人了,她开始操作了。

她先进行了hadoop相关组件安装部署,主要是安装hive组件。

第一步完成之后,她开始使用python语言爬取数据。

唐苏以前也去一些网站爬取过数据,这一步对于她来说难度并不是很大,这也是作为大数据专业的学生需要掌握的基本技能之一。

第二步,爬取到了数据,唐始提取有效数据,然后对数据进行格式转化,转化为jn格式。这一步唐苏很熟练的完成了,因为以前就做过。