春雨里洗过的太阳

世间所有的相遇,都是久别重逢

Shell 一简介 ​ Shell 是一个用 C 语言编写的程序, 通过 Shell 用户可以访问操作系统内核服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是一种命令语言,又是一种程序设计语言。 ​ Shell script 是一种为 shell 编写的脚本程序。 Shell 编程一般指 shell 脚本编程,不是指开发 shell 自身。 ​ Shell 编程跟 java、 php 编程一样,只要有一个能编写代码的文本编辑器 和一个能解释执行的脚本解释器就可以了。 ​ Linux 的 Shell 种类众多,一个系统可以存在多个 shell,可以通过
阅读全文 »

一 数据结构 数据结构:是指相互之间存在一种或多种特定关系的数据元素的集合 数据结构=逻辑结构+数据的存储结构+(在存储结构上的)运算/操作 1.同一逻辑结构(唯一)对应多种存储结构(不唯一) 2.同样的运算在不同存储结构中实现不同(运算的实现依赖于存储结构) 1 2 3 4 5 6 7 8 9 10 11 12 逻辑结构大致分为: 1 线性结构 线性表,栈,队列,数组等 2 非线性结构 树形结构 图形结构 存储结构: 1 顺序存储 2 链式存储 3 索引存储 4 散列存储 数据的运算:增删查改 1 逻辑结构 1.1 线性表 ​
阅读全文 »

一 概述 开源的(基于BSD协议),使用ANSI C 编写 ,基于内存的且可以持久化,高性能k-v的nosql数据库 支持数据结构类型丰富 (k只有String 类型 ,v 有很多类型) 1特性 Ø Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。 Ø Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储。 Ø Redis支持数据的备份,即master-slave模式的数据备份。 2 优势 Ø 性能极高 – Redis能读的速度是110000次/s,写的速度是81000次/s
阅读全文 »

一 sparkCore调优 一 开发调优 1 概述 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。 然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调优,Spark作业的执行速度可能会
阅读全文 »

一 概述 Structured Streaming 是 Spark Streaming 的进化版, 如果了解了 Spark 的各方面的进化过程, 有助于理解 Structured Streaming 的使命和作用 1 Spark 编程模型的进化过程 过程 1. 编程模型 RDD 的优点和缺陷 2011 2. 编程模型 DataFrame 的优点和缺陷 2013 3. 编程模型 Dataset 的优点和缺陷 2015 RDD 的优点 1. 面向对象的操作方式 2. 可以处理任何类型的数据 RDD 的缺点 1. 运行速度比较慢, 执行过程没有优化 2. API 比较僵硬,
阅读全文 »

一概述 1 流计算与批量计算 批量计算 数据已经存在, 一次性读取所有的数据进行批量处理 hdfs > spark sql > hdfs 流计算 数据源源不断的进来, 经过处理后落地 设备> kafka > SparkStreaming > hbase等 2 流和批 架构 流和批都是有意义的, 有自己的应用场景, 那么如何结合流和批呢? 如何在同一个系统中使用这两种不同的解决方案呢? 混合架构 混合架构的名字叫做 Lambda 架构, 混合架构最大的特点就是将流式计算和批处理结合起来,后在进行查询的时候分别查询流系统和批系统, 最后将结果合并在一起 一般情况下 Lambda 架构分
阅读全文 »

一 日期连续问题 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 -- 求取连续登陆10天以上的用户和次数 -- table user_login user_id,up_date select user_id ,count(1) as up10_cnt from ( select user_id,simple_date ,count(1) as cnt from ( select user_id ,up_date ,date_sub(up_date,
阅读全文 »

一聚合操作 1. groupBy 2. rollup 3. cube 4. pivot 5. RelationalGroupedDataset 上的聚合操作 1自定义udf与udaf 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 7
阅读全文 »

一 概述 1 数据分析的方式 数据分析的方式大致上可以划分为 SQL 和 命令式两种 命令式 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算. 在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算. 1 2 3 4 5 sc.textFile("...") .flatMap(_.split(" ")) .map((_, 1)) .reduceByKey(_ + _) .collect() * 命令式的优点
阅读全文 »

Yarn资源调度详解 1.yarn的介绍: ​ yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMaster,AM) ​ 总结一句话就是说:yarn主要就是为了调度资源,管理任务等
阅读全文 »