浅谈函数式编程
2019-12-05 15:41 | 分类:数据库 | 评论:0 次 | 浏览: 11
函数式编程(Functional Programming)是一种编程风格,它是相对于指令式编程风格而言的,常见的面向对象编程就是...
ElasticSearch如何一次查询出全部数据——基于Scroll
2019-12-05 15:41 | 分类:数据库 | 评论:0 次 | 浏览: 9
ElasticSearch 用Scroll(对应数据库的游标) 一次查出全部数据 ...
spark-3.0 application 调度算法解析
2019-12-04 15:59 | 分类:数据库 | 评论:0 次 | 浏览: 15
spark 各个版本的application 调度算法还是有这明显的不同之处的。从spark1.3.0 到 spark 1.6....
bayaim——听课笔记_01.Docker基础应用 10课.txt
2019-12-02 16:49 | 分类:数据库 | 评论:0 次 | 浏览: 18
2019年8月5日18:39:06 10.20.100.21rootbayaim 01-Docker介绍 docker -- g...
oracle性能优化(项目中的一个sql优化的简单记录)
2019-12-01 15:14 | 分类:数据库 | 评论:0 次 | 浏览: 22
在项目中,写的sql主要以查询为主,但是数据量一大,就会突出sql性能优化的重要性。其实在数据量2000W以内,可以考虑索引,但...
Hadoop_简介_01
2019-11-30 15:26 | 分类:数据库 | 评论:0 次 | 浏览: 18
1. Apache Hadoop 1.1 Hadoop介绍 Hadoop是Apache旗下的一个用java语言实现的开源软件框架...
Linux虚拟机扩容根分区CentOs6.9 VMware14
2019-11-29 15:10 | 分类:数据库 | 评论:0 次 | 浏览: 29
1、首先关闭虚拟机点击编辑虚拟机设置 2、点击想要扩容的硬盘点击扩容 3、增加容量 输入想增加的容量,因为我本身是30G写到35...
Kafka 的No kafka server to stop报错处理
2019-11-27 16:04 | 分类:数据库 | 评论:0 次 | 浏览: 19
使用kafka-server-stop.sh命令关闭kafka服务,发现无法删除,报错如下图No kafka server to...
kafka connector 使用总结以及自定义connector开发
2019-11-26 15:48 | 分类:数据库 | 评论:0 次 | 浏览: 28
Kafaka connect 是一种用于在Kafka和其他系统之间可扩展的、可靠的流式传输数据的工具。它使得能够快速定义将大量数...
数据中台架构体系浅析
2019-11-26 15:47 | 分类:数据库 | 评论:0 次 | 浏览: 25
中台出现的背景 从技术上来看,随着业务的发展,很多企业在前期搭建了很多的IT系统,系统间像烟囱一样相互独立。在面对着越来越复杂的...
理解Spark SQL(三)—— Spark SQL程序举例
2019-11-26 15:47 | 分类:数据库 | 评论:0 次 | 浏览: 23
上一篇说到,在Spark 2.x当中,实际上SQLContext和HiveContext是过时的,相反是采用SparkSessi...
「漏洞预警」Apache Flink 任意 Jar 包上传导致远程代码执行漏洞复现
2019-11-26 15:47 | 分类:数据库 | 评论:0 次 | 浏览: 27
漏洞描述 Apache Flink是一个用于分布式流和批处理数据的开放源码平台。Flink的核心是一个流数据流引擎,它为数据流上...
高维数据Lasso思路
2019-11-26 15:47 | 分类:数据库 | 评论:0 次 | 浏览: 23
海量数据的特征工程中, 如果数据特征维度达到几千乃至上万 常规的lasso很容易失效 这里介绍几种泛义lasso,是在实际数据处...
hadoop搭建的前期准备
2019-11-23 15:44 | 分类:数据库 | 评论:0 次 | 浏览: 34
这个hadoop的搭建是以比赛前的练习为目的的,所以我直接以root用户来搭建hadoop,主要也是方便我自己以后复习用的 需要...
spark利用yarn提交任务报:YARN application has exited unexpectedly with state UNDEFINED
2019-11-22 15:33 | 分类:数据库 | 评论:0 次 | 浏览: 43
spark用yarn提交任务会报ERROR cluster.YarnClientSchedulerBackend: YARN a...
理解Spark SQL(二)—— SQLContext和HiveContext
2019-11-22 15:33 | 分类:数据库 | 评论:0 次 | 浏览: 27
使用Spark SQL,除了使用之前介绍的方法,实际上还可以使用SQLContext或者HiveContext通过编程的方式实现...
数据治理的王者——Apache Atlas
2019-11-22 15:33 | 分类:数据库 | 评论:0 次 | 浏览: 32
一、Atlas是什么? 在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。 大部分公司只是单纯的对数据进行...
【Elasticsearch 7 探索之路】(三)倒排索引
2019-11-21 15:34 | 分类:数据库 | 评论:0 次 | 浏览: 31
上一篇,我们介绍了 ES 文档的基本 CURE 和批量操作。我们都知道倒排索引是搜索引擎非常重要的一种数据结构,什么是倒排索引,...
理解Spark SQL(一)—— CLI和ThriftServer
2019-11-21 15:34 | 分类:数据库 | 评论:0 次 | 浏览: 46
Spark SQL主要提供了两个工具来访问hive中的数据,即CLI和ThriftServer。前提是需要Spark支持Hive...
elasticsearch入门之核心概念篇
2019-11-20 15:47 | 分类:数据库 | 评论:0 次 | 浏览: 47
一、elasticsearch是什么 elasticsearch是一个基于Lucene的搜索服务器,采用Java语言编写,使用L...
Zookeeper分布式集群搭建
2019-11-20 15:47 | 分类:数据库 | 评论:0 次 | 浏览: 38
文中Zookeeper分布式集群搭建在Linux CentOS7系统之上。搭建大数据分布式集群,不建议使用root用户直接操作,...
Hive表的几种存储格式
2019-11-20 15:47 | 分类:数据库 | 评论:0 次 | 浏览: 29
Hive的文件存储格式: textFile textFile为默认格式 存储方式:行存储 缺点:磁盘开销大;数据解析开销大;压缩...
频繁项集的产生及经典算法
2019-11-20 07:53 | 分类:数据库 | 评论:0 次 | 浏览: 41
前言: 关联规则是数据挖掘中最活跃的研究方法之一, 是指搜索业务系统中的所有细节或事务,找出所有能把一 组事件或数据项与另一组事...
flink 流式处理中如何集成mybatis框架
2019-11-20 07:53 | 分类:数据库 | 评论:0 次 | 浏览: 39
flink 中自身虽然实现了大量的connectors,如下图所示,也实现了jdbc的connector,可以通过jdbc 去操...
雅虎日本如何用 Pulsar 构建日均千亿的消息平台
2019-11-18 15:43 | 分类:数据库 | 评论:0 次 | 浏览: 28
雅虎日本是一家雅虎和软银合资的日本互联网公司,是日本最受欢迎的门户网站之一。雅虎日本的互联网服务在日本市场占主导地位。 下图从三...
Spark(一): 基本架构及原理
2019-11-18 15:43 | 分类:数据库 | 评论:0 次 | 浏览: 27
Spark运行模式有Local,STANDALONE,YARN,MESOS,KUBERNETES这5种,其中最为常见的是YARN...
Flink入门(一)——Apache Flink介绍
2019-11-18 15:43 | 分类:数据库 | 评论:0 次 | 浏览: 32
Apache Flink是什么? 在当代数据量激增的时代,各种业务场景都有大量的业务数据产生,对于这些不断产生的数据应该如何...
Apache Spark 3.0 预览版正式发布,多项重大功能发布
2019-11-17 15:38 | 分类:数据库 | 评论:0 次 | 浏览: 36
2019年11月08日 数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版...