博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop综合大作业
阅读量:7033 次
发布时间:2019-06-28

本文共 311 字,大约阅读时间需要 1 分钟。

一、用Hive对爬虫大作业产生的文本文件词频统计。

1.启动hadoop

2.Hdfs上创建文件夹并查看

3.上传英文词频统计文本至hdfs

4.启动Hive

5.导入文件内容到表docs并查看

6.进行词频统计,结果放在表t_word_count里

 

 7.查看统计结果

 

二、用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

 1.将做过的爬取校园新闻生成的Excel文件先转换为文本文件,编码改为UTF-8,然后转换为csv文件,通过qq邮箱在虚拟机的Linux系统下载

 

转载于:https://www.cnblogs.com/jm2426330020/p/9088868.html

你可能感兴趣的文章
我的友情链接
查看>>
yum仓库搭建
查看>>
一张图告诉你,只会JavaScript还不够!
查看>>
IBM TSM注册许可证
查看>>
WINDOWS SERVER 2003本地管理员、目录服务还原模式管理员、域管理员密码的破解汇总...
查看>>
Lync Server 2013企业版部署系列之九:前端部署后续工作
查看>>
如何为Exchange2010设计基于Windows Server Backup的备份恢复方案
查看>>
centos6编译安装nginx1.8.1
查看>>
信息安全包含哪些
查看>>
浅谈TCP全局同步和TCP饥饿
查看>>
我的友情链接
查看>>
flex中ViewStack利用按钮做导航
查看>>
simpleButton的几种状态解析
查看>>
Listview优化
查看>>
图片和图形之添加Motion(14)
查看>>
我的友情链接
查看>>
api(应用程序编程接口)
查看>>
Python学习路线
查看>>
Use the Get-Command PowerShell Cmdlet to Find Parameter Set Information
查看>>
08-bash基础特性及基础命令
查看>>