春雨里洗过的太阳

世间所有的相遇,都是久别重逢

所有的错误,不管你读了多少史,你该犯的错,一样都不会少。​ ——当年明月 ​ 近期,读了很多的历史书籍,如当年明月的明朝那些事儿,渤海小吏的百战系列,李开元的秦迷,秦崩等,又因此略读了正史–二十四史,深深感觉到历史的因果之美,如是因,如是果。正如明月老师说的那样,读史不是啥以史为鉴,“所有的错误,不管你读了多少史,你该犯的错,一样都不会少。”。因为人性使然。读史读到最后,要明白,当年有太多的不得已(大量的利益与危险交杂在一起)。亡国之君不一定都是混蛋,奸臣当道不见得就那么可恨,忠臣孝子也要扒开来看。没有一个重大选择是轻松的。读史对于个人来说,是为了让我设身处地体会到,如果未来你也会面对这种情
阅读全文 »

一 简介 ​ 机器学习是一门能够让编程计算机从数据中学习的计算机科学或艺术. --Arthur Samuel 二 类别 机器学习系统种类繁多,常见有以下几种分类: 1. 是否在人类监督下训练 1 监督式学习,无监督学习,半监督学习和强化学习 2.是否可以动态地进行增量学习 1 在线学习和批量学习 3 .基于模型学习和基于实例学习 这些标准间并不
阅读全文 »

一 简介 ​ BeautifulSoup(美味汤)是 python 的一个库,最主要的功能是从网页抓取数据,(当然还有其他两种:正则表达式和Lxml),官方解释最为致命,如下所示: ​ Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Sou
阅读全文 »

一 简介 1.1 概述 Echarts 是一个由百度开源的数据可视化,凭借着良好的交互性,精巧的图表设计,得到了众多开发者的认可。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。 1.2 特性 1 2 3 4 5 6 7 简洁的 API 设计,使用如丝滑般流畅,支持链式调用 囊括了 30+ 种常见图表,应有尽有 支持主流 Notebook 环境,Jupyter Notebook 和 JupyterLab 可轻松集成至 Flask,Django 等主流 Web 框架 高度灵活的配置项,可轻松搭配出精美的图表 详细的文档和
阅读全文 »

一 问题背景 报错: 1 '\\xF0\\x9F\\x91\\xAC' for column 'counselor_user_name' at row 1","record":[{"byteSize":2,"index":0,"rawData":55,"type":"LONG"},{"byteSize":3,"index":1,"rawData":565,"type":"LONG"},{"byteSize":4,"index":2,"rawData":"美伊👬","type":"STRING"} ​ 表情符号等,向MySQL导数据报错,数据库编码格式,表编码格式和字段编码格式的时
阅读全文 »

1 jupyter 安装多内核 1 2 3 4 5 6 7 # 如3.6 前提安装好anaconda和jupyter 1: conda create -n py3.6 python=3.6 2: conda activate py3.6 (退出 conda deactivate) 3: pip install ipykernel -i https://pypi.tuna.tsinghua.edu.cn/simple 4: conda deactivat 5: python -m ipykernel install --name py3.6 (退出虚拟环境后运行) ps卸载内核: jupyt
阅读全文 »

一 简介 ​ ClickHouse 是由俄罗斯的Yandex用c++编写的列式存储数据库,主要用于在线分析处理(OLAP),可提供海量数据的存储和分析,同时利用其数据压缩和向量化引擎的特性,能提供快速的数据搜索。注意到ClickHouse是一个数据库管理系统,而不是单个数据库。不依赖hadoop.但集群版需要依赖于zk 二 安装 1 2 3 20.6.3 之前不支持explain 20.8 加了个引擎能实时同步mysql 本文 21.7.3.14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 1
阅读全文 »

一 应用场景 1 2 spark:离线批处理,对延迟要求不高的实时处理(微批),ds和df也支持流批一体 Flink:实时处理,Flink1.12开始支持流批一体 二 API 1 2 spark:rdd(不推荐)/dstream(不推荐)/df/ds flink:ds(1.12软弃用)/df(主推)/table&sql(发展中) 三 核心组件/流程原理 spark flink 四 事件机制 1 2 3 spark:sparkstreaming只支持处理时间,structuredStreaming开始支持事件时间 flink:事件时间/处理时间/摄入时
阅读全文 »

一 何为渠道归因分析 举个例子: 1 2 3 某汽车厂商,将在国庆推出新车,在此之前投放了电视广告(属于品牌广告)、线下地铁广告(属于品牌广告)、搜索广告(属于效果广告)、抖音信息流广告(属于效果广告)进行上市前的推广。 某个中年已婚男性第一周在晚上看电视的时候看到了该汽车广告;第二周在百度搜索对比了几款汽车的参数,正在考虑购买哪个品牌的车;在第三周上班坐地铁的时候又看到了地铁上投放的该汽车广告,心里受到刺激;在第四周刷抖音的时候又碰到了该汽车的视频广告,受到了震撼,打算购买者广告主的这个新款汽车;在第五周的时候去了家里附近的4S电购买了该汽车。 在上述场景中,广告主投放了4条渠道做广告
阅读全文 »

一 常用优化参数 参数组参数参数说明输出合并set hive.merge.mapfiles=true;在Map-only的任务结束时合并小文件set hive.merge.mapredfiles=true;在Map-Reduce的任务结束时合并小文件set hive.merge.size.per.task=100000000;合并文件的大小set hive.merge.smallfiles.avgsize=64000000;当输出文件的平均大小小于该值时,启动一个独立的map-reduce任务进行文件merge动态分区set hive.exec.dynamic.partition=true;使
阅读全文 »