一 简介
pandas自身依赖于matplotlib,自己构造了一套数据可视化的api,主要有以下几个包
1 | 1: pandas.DataFrame.plot.* (area,bar,barh,box,hist,line,pie....) |
二 使用
2.1 DataFrame自带的绘图
目前自带的绘图只有两个直方图和箱型图
1 hist图
用于查看dataframe的每个数值属性的直方图
1 | import pandas as pd |
2 boxplot
用于查看df的每一列的箱型图
1 | import pandas as pd |
2.2 dataframe 的plot下的绘图
1 plot
可以绘制多类型图
1 | import numpy as np |
2 bar/barh
1 | import pandas as pd |
3 box
1 | data = np.random.randn(25, 4) |
4 density 核密度估计图
核密度图可以看作是概率密度图,其纵轴可以粗略看做是数据出现的次数,与横轴围成的面积是一.
1 | df = pd.DataFrame({ |
5 hist
1 | df = pd.DataFrame( |
by参数分组直方图
1 | age_list = [8, 10, 12, 14, 72, 74, 76, 78, 20, 25, 30, 35, 60, 85] |
5 line
1 | df = pd.DataFrame({ |
分组子图
1 | axes = df.plot.line(subplots=True) |
指定xy
1 | lines = df.plot.line(x='pig', y='horse') |
6 pie
1 | df = pd.DataFrame({'mass': [0.330, 4.87 , 5.97], |
分组子图
1 | plot = df.plot.pie(subplots=True, figsize=(11, 6)) |
7 scatter
1 | df = pd.DataFrame([[5.1, 3.5, 0], [4.9, 3.0, 0], [7.0, 3.2, 1], |
控制颜色
1 | ax2 = df.plot.scatter(x='length', |
2.3 pandas下的plotting
1 pandas.plotting.scatter_matrix
监测属性间相关性的散点直方图
1 | from pandas.plotting import scatter_matrix |
2 pandas.plotting.radviz
绘制聚类图,将 N 维数据集投影到 2D 空间中,其中每个维度的影响可以解释为所有维度影响之间的平衡
1 | df = pd.DataFrame( |
3 pandas.plotting.parallel_coordinates
平行坐标绘图
1 | dfiris = pd.read_csv( |
4 pandas.plotting.lag_plot
时间序列的滞后图,滞后图是用时间序列和相应的滞后阶数序列做出的散点图。可以用于观测自相关性。
1 | # 给定序列 |
5 pandas.plotting.boxplot
从 DataFrame 列制作箱形图
1 | np.random.seed(1234) |
分组
1 | df = pd.DataFrame(np.random.randn(10, 2), |
可以将字符串列表(即)传递给箱线图,以便通过 x 轴中的变量组合对数据进行分组:['X', 'Y']
1 | df = pd.DataFrame(np.random.randn(10, 3), |
1 | #可以对箱线图进行其他格式化,例如抑制网格 ( grid=False)、在 x 轴上旋转标签 (ie rot=45) 或更改字体大小 (ie fontsize=15) |
6 pandas.plotting.bootstrap_plot
均值、中值和中间范围统计数据的引导图。
1 | s = pd.Series(np.random.uniform(size=100)) |
7 pandas.plotting.autocorrelation_plot
时间序列的自相关图。
1 | spacing = np.linspace(-9 * np.pi, 9 * np.pi, num=1000) |
8 pandas.plotting.andrews_curves(调和曲线)
生成 Andrews 曲线的 matplotlib 图,用于可视化多变量数据的集群。一般用户聚类分析
两个样品点之间的欧式距离越近,其Andrews曲线也会越近,往往彼此纠缠在一起。因此Andrews曲线常用于反映多元样品数据的结构,以预估各样品的聚类情况。
调和曲线图由Andrews于1972年提出,因此又叫Andrews plots或Andrews curve,是将多元数据以二维曲线展现的一种统计图,常用于表示多元数据的结构
1 | df = pd.read_csv( |