春雨里洗过的太阳

世间所有的相遇,都是久别重逢

1 SparkSql的内置函数 • 1 ! • 2 % • 3 & • 4 * • 5 + • 6 - • 7 / • 8 < • 9 <= • 10 <=> • 11 = • 12 == • 13 > • 14 >= • 15 ^ • 16 abs • 17 acos • 18 add_months • 19 and • 20 approx_count_distinct • 21 approx_percentile • 22 array • 23 array_contains • 24 ascii • 25 asin • 26 assert_true • 27 atan • 28 atan2
阅读全文 »

一 统计学概述 * 统计学(statistics):收集、处理、分析、解释数据并从数据中得出结论的科学。 * **描述统计(discriptive statistics):**研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。 描述统计其实就是对数据进行总体特征的概述,例子:说一下班级这次考试的情况如何 * **推断统计(inferential statistics):**是研究如何利用样本数据来推断总体特征的统计方法 推断统计其实是建立在描述统计的基础之上,在对总体数据有了大致的了解之后,运用一些分析方法,对数据进行预测,并达到统计决策的目的,其实不管是在统计学
阅读全文 »

一 spark的Rdd,DF,DS的转换及用法 1、三者的区别与联系 三者发展历程: RDD(spark1.0) ===> DataFrame(spark1.3) ===> DataSet(spark1.6) 大概可以这么说: rdd + 表结构 = df rdd + 表结构 + 数据类型 = ds df + 数据类型 = ds 共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 区别: 1)RDD不支持SQL
阅读全文 »

简介 ​ 个人刷题思路记录,每日一题!!!!!时刻保持竞争力与思维活跃 一 数组 1.1 给定一个只包含正整数的非空数组。是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 public class ArraySplitArrsumEq { //给定一个只包含
阅读全文 »

Flink 目标: 1. 批数据处理编程ExecutionEnviroment 2. 流数据处理编程StreamExecutionEnviroment 3. Flink原理 4. checkpoint、watermark Flink是什么 * Flink是什么 * Flink是一个分布式计算引擎 MapReduce Tez Spark Storm * 同时支持流计算和批处理,Spark也能做批和流 * 和Spark不同, Flink是使用流的思想做批, Spark是采用做批的思想做流 *
阅读全文 »

一 股票对上市公司的好处与弊端 1 好处 * 吸取股民的储蓄资金、有更多资金来源; * 股权分散化,可以避免一股东独大,有利于利益多元化; * 广告效应:股票行情公示,可以提升公司声誉; * 广告效应:直接促进股东对公司产品的消费; * 利于确定公司股票价格和市值; 2 弊端 * 信息披露使财务状况公开化 * 股权稀释,减低控股权 * 被恶意收购的风险 * 上市的成本和费用高 * 先付费用,但企业不一定能成功上市(需要先向法律顾问、保荐人、会计师支付部分费用) * 商业信息可能被竞争者知悉 二 股票的概念 ​ 上市公司为筹集资金所发行给股东作为持股凭证并借以取得股
阅读全文 »

​ 最近看了渤海小吏的百战系列历史书籍,深有感触,他是以战争为载体将散乱的历史进行串联,使个人对整体的史观产生整体框架效果,个人感觉这是一种很好的阅读方式,就联想到了,之前对经济学感兴趣时,是阅读了一些经济书籍,其中很多晦涩难懂,阅读完后形成不了完整的知识链,就想着是否可以以具体的经济案例为载体对经济学进行串联与梳理,以下是付出行动后的记录: 1 股份的诞生 世界上最早的股份制公司——荷兰东印度公司,世界上最早的股票交易所——荷兰阿姆斯特丹证券交易所。
阅读全文 »

一 数据仓库的概要 1 数据仓库的起因 在建设数据仓库之前,数据散落在企业各部门应用的数据存储中,它们之间有着复杂的业务连接关系,从整体上看就如一张巨大的蜘蛛网:结构上错综复杂,却又四通八达。在企业级数据应用上单一业务使用方便,且灵活多变;但涉及到跨业务、多部门联合应用就会存在: 1数据来源多样化,管理决策数据过于分散; 2数据缺乏标准,难以整合; 3数据口径不统一,可信度低; 4缺乏数据管控体系,数据质量难以保证。 如果企业在数据建设方面没有一个整体的规划,而采取自然演化的方式,那么在未来数据应用的过程中,将不得不面对以下问题: 1 2 3 1数据缺乏可信性:缺乏统一的维度;
阅读全文 »

1、数据库介绍篇 重置密码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 [root@node1 db]# mysql ERROR 1045 (28000): Unknown error 1045 [root@node1 db]# vim /etc/my.cnf #使用完后去掉 [mysqld] skip-grant-tables=1 重启mysql,再修改 service mysqld restart mysql> set password = PASSWORD('123456'); ERROR 12
阅读全文 »

一 简介和安装 1 简介 Anaconda(官方网站)就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。 2 Anaconda、conda、pip、virtualenv的区别 3 安装 配置数据源 1 2 3 4 5 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free conda config --add channels https://mirrors.tuna.ts
阅读全文 »