星空捞月:找寻心中的安宁 
  • 首页
  • 归档
  • 分类
  • 标签
  • 关于
  •     
五种加快Hive查询的方式
  作为一个工作在Hadoop领域的数据科学家,我经常使用Apache Hive 来探索数据,进行ad-hoc查询,或构建数据流。
 2018-07-07
大数据
总结 Hive
Hive相关的两个疑问
0. 问题引出  从疑问出发,寻根问底探究原理: Hive CLI/Hive Beeline/Hive JDBC断开连接之后,运行在Yarn上的任务是否继续运行? 我们知道JDBC是无法做缓存的,那么HUE是如何改善查询速度的?
 2018-07-05
大数据
问题 Hive
Chromeheadless安装与使用
  如果是小规模爬虫或模拟效果要求不高的话,使用Selenium HtmlUniDriver基本可以满足需求。但HtmlUnitDriver是基于JS模拟浏览器原理,存在许多浏览器可以做,但它其实无法操作的功能,比如截图等高级功能。
 2018-07-01
爬虫
部署 Chrome
Java-API读取CDH-Hadoop-Parquet文件
  由于工作需要,基于目前公司集群存在较多的服务器且存在大量的内存,因此考虑直接将数据Load进内存进行数据处理,测试是否能够加快处理速度;鉴于以上目的,版主尝试使用Parquet的Java API读入Parquet文件。
 2018-06-29
大数据
调研 Java Parquet
Hadoop集群配置
  自己动手搭建一个Hadoop集群,对于Hadoop的学习、理解非常有帮助,从中能够学习到Hadoop常用的端口、配置文件、配置信息等内容。
 2018-06-29
大数据
HDFS 配置
Spark集群配置
  相比Hadoop的配置,Spark配置起来相对简单。本文结合自身的配置经验,写下配置Spark的过程。
 2018-06-29
大数据
Spark 使用
Linux安装MySQL
  在Windows上安装MySQL比较简单,配置、启动服务,第一次进入不需要输入密码。但是在Centos6上安装MySQL,发现第一次安装会出现密码问题,因此有必要记录下自己的安装、配置过程,以供遗忘。
 2018-06-29
运维
Linux 安装部署 MySQL
Hbase集群安装配置-四节点-Centos6.9
  最近在研究Hadoop相关组件的安装,本篇主要研究Hbase的安装。Hbase作为Hadoop家族中重要的数据库解决方案,对以后的Hive等数据库都有非常大的帮助。
 2018-06-29
运维
部署 Hbase
Hive2.0.0安装配置
环境依赖  Hive必须运行在Hadoop之上,则需要先安装Hadoop环境。关于Hadoop的安装可以参考我前文的博客,也可以参考原文作者的链接。
 2018-06-29
大数据
部署 Hive 安装
FNLP编译安装
  最近在研究dl4j的学习,其中有使用FNLP作为分词的例子。版主尝试编译源码,经过不断的查找验证,得到可行的方式。
 2018-06-29
深度学习
部署 NLP
12345…9

搜索

Hexo Fluid