春雨里洗过的太阳

世间所有的相遇,都是久别重逢

一 哈希表定义 哈希表的引入: ​ 链表和树的查找的共同特点是:通过关键字值与给定值进行比较,确定位置,效率取决于比较次数,如: 顺序表根据索引查很快,但根据内容查很慢 理想的方法是:不需要比较,根据给定值直接定位存储的位置 这样需要记录存储位置与该记录的关键字建立关系,使每个记录的关键字与一个存储位置向对应 hashtable有称散列表 特点:快 结构:有多种 最流行最容易理解的:顺序表+链表 主结构:顺序表 每个顺序表的节点单独引出一个链表 二 哈希表的操作 2.1 哈希表添加元素 1:计算哈希码(调用hashCode()),结果是一个int值,(整数的哈希吗取自身
阅读全文 »

一 图的定义 多对多的关系,是一种网状数据结构。图由非空的顶点集合和一个描述顶点之间关系的集合组成 1.顶点(vertex):图中的数据元素,如图一。 2.边(edge):图中连接这些顶点的线,如图一。 所有的顶点构成一个顶点集合,所有的边构成边的集合,一个完整的图结构就是由顶点集合和边集合组成。图结构在数学上记为以下形式: G=(V,E) 或者 G=(V(G),E(G)) 其中 V(G)表示图结构所有顶点的集合,顶点可以用不同的数字或者字母来表示。E(G)是图结构中所有边的集合,每条边由所连接的两个顶点来表示。 图结构中顶点集合V(G)不能为空,必须包含一个顶点,而图结构边集合可
阅读全文 »

一 树 一棵树(tree)是由n(n>0)个元素组成的有限集合,其中: (1)每个元素称为结点(node); (2)有一个特定的结点,称为根结点或根(root); (3)除根结点外,其余结点被分成m(m>=0)个互不相交的有限集合,而每个子集又都是一棵树(称为原树的子树) 1.1 节点的度和树的度 树的度——也即是宽度,简单地说,就是结点的分支数。以组成该树各结点中最大的度作为该树的度,树中度为零的结点称为叶结点或终端结点。树中度不为零的结点称为分枝结点或非终端结点。除根结点外的分枝结点统称为内部结点 节点的度——节点拥有子树的树目为节点的度 1.2 节点的层次和树的深度 节点
阅读全文 »

一 简介 pandas自身依赖于matplotlib,自己构造了一套数据可视化的api,主要有以下几个包 1 2 3 1: pandas.DataFrame.plot.* (area,bar,barh,box,hist,line,pie....) 2: pandas.DataFrame.hist/boxplot 3: pandas.plotting.* (table,scatter_matrix,boxplot....) 二 使用 2.1 DataFrame自带的绘图 目前自带的绘图只有两个直方图和箱型图 1 hist图 用于查看dataframe的每个数值属性的直方图 1 2
阅读全文 »

1 定义变量排序行号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 --1 select if(province_name='unknow','未知地区',province_name) as province_name ,(@rowNum := @rowNum + 1) as pro_rank ,user_cnt from rpt_user_device_province_cnt_d ,(select (@rowNum := 0)) b where hp_cal_d
阅读全文 »

一简介 1 2 3 4 1 复杂事件的处理(complex event processing cep) 2 cep允许在无休止的事件流中检测事件模式,让开发者掌握数据中的重要部分 3 一个或多个简单事件构成的事件流通过一定的规则盘匹配,然后输出用户想要的数据 --满足规则的复杂事件 4 复合事件处理(Complex Event Processing,CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分析得到更复杂的复合事
阅读全文 »

一 Table Api和SQL Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。 目前功能尚未完善,处于活跃的开发阶段。 Table API是一套内嵌在Java和Scala语言中的查询API,它允许我们以非常直观的方式,组合来自一些关系运算符的查询(比如select、filter和join)。而对于Flink SQL,就是直接可以在代码中写SQL,来实现一些查询(Query)操作。Flink的SQL支持,基于实现了SQL标准的Apache Calcite(Apache开源SQL解析工具)。 无论输入是批输入还是流式输入,在这两套API中,
阅读全文 »

一 状态一致性 1.1 状态一致性简介与级别 1.1.1简介 当在分布式系统中引入状态时,自然也引入了一致性问题。一致性实际上是”正确性级别”的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多 正确?举例来说,假设要对最近一小时登录的用户计数。在系统经历故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还是重复计数? 有状态的流处理,内部每个算子任务都可以有自己的状态; 对于流处理器内部(没有接入sink)来说,所谓的状态一致性,其实就是我们所说的计算结果要保证准确;一条数据不应该丢失,也不应该重复计算; 在遇到故障时可以恢复状
阅读全文 »