星空捞月:找寻心中的安宁
首页
归档
分类
标签
关于
五种加快Hive查询的方式
作为一个工作在Hadoop领域的数据科学家,我经常使用Apache Hive 来探索数据,进行ad-hoc查询,或构建数据流。
2018-07-07
大数据
总结
Hive
Hive相关的两个疑问
0. 问题引出 从疑问出发,寻根问底探究原理: Hive CLI/Hive Beeline/Hive JDBC断开连接之后,运行在Yarn上的任务是否继续运行? 我们知道JDBC是无法做缓存的,那么HUE是如何改善查询速度的?
2018-07-05
大数据
问题
Hive
Chromeheadless安装与使用
如果是小规模爬虫或模拟效果要求不高的话,使用Selenium HtmlUniDriver基本可以满足需求。但HtmlUnitDriver是基于JS模拟浏览器原理,存在许多浏览器可以做,但它其实无法操作的功能,比如截图等高级功能。
2018-07-01
爬虫
部署
Chrome
Java-API读取CDH-Hadoop-Parquet文件
由于工作需要,基于目前公司集群存在较多的服务器且存在大量的内存,因此考虑直接将数据Load进内存进行数据处理,测试是否能够加快处理速度;鉴于以上目的,版主尝试使用Parquet的Java API读入Parquet文件。
2018-06-29
大数据
调研
Java
Parquet
Hadoop集群配置
自己动手搭建一个Hadoop集群,对于Hadoop的学习、理解非常有帮助,从中能够学习到Hadoop常用的端口、配置文件、配置信息等内容。
2018-06-29
大数据
HDFS
配置
Spark集群配置
相比Hadoop的配置,Spark配置起来相对简单。本文结合自身的配置经验,写下配置Spark的过程。
2018-06-29
大数据
Spark
使用
Linux安装MySQL
在Windows上安装MySQL比较简单,配置、启动服务,第一次进入不需要输入密码。但是在Centos6上安装MySQL,发现第一次安装会出现密码问题,因此有必要记录下自己的安装、配置过程,以供遗忘。
2018-06-29
运维
Linux
安装部署
MySQL
Hbase集群安装配置-四节点-Centos6.9
最近在研究Hadoop相关组件的安装,本篇主要研究Hbase的安装。Hbase作为Hadoop家族中重要的数据库解决方案,对以后的Hive等数据库都有非常大的帮助。
2018-06-29
运维
部署
Hbase
Hive2.0.0安装配置
环境依赖 Hive必须运行在Hadoop之上,则需要先安装Hadoop环境。关于Hadoop的安装可以参考我前文的博客,也可以参考原文作者的链接。
2018-06-29
大数据
部署
Hive
安装
FNLP编译安装
最近在研究dl4j的学习,其中有使用FNLP作为分词的例子。版主尝试编译源码,经过不断的查找验证,得到可行的方式。
2018-06-29
深度学习
部署
NLP
1
2
3
4
5
…
9
搜索
×
关键词