取用数据的时候有时候会取用dataframe的格式,很多人都不熟,本篇重点整理了相关的的内容,以便大家查阅和学习。
蓝字是文章链接,大家都知道吧
选取数据
- 选取行名、列名、值
- 以标签(行、列的名字)为索引选择数据—— x.loc[行标签,列标签]
- 以位置(第几行、第几列)为索引选择数据—— x.iloc[行位置,列位置]
- 同时根据标签和位置选择数据——x.ix[行,列]
- 选择连续的多行多列——切片
- 选择不连续的某几行或某几列
- 简便地获取行或列
- 如何返回一个dataframe的单列或单行
- 按条件选取数据——df[逻辑条件]
转置、排序
- 转置 df.T
- 按行名或列名排序——df.sort_index
- 按值排序——df.sort_index
增删行或列
连接多个dataframe
组建dataframe
- 组建方法——pd.DataFrame
- 用字典型数据组建——pd.DataFrame
- 简便地获得聚宽数据中的时间索引
缺失值处理
- 去掉缺失值——df.dropna
- 对缺失值进行填充——df.fillna
- 判断数据是否为缺失——df.isnull
常用统计函数
- 常用统计函数
- describe 针对Series或个DataFrame列计算汇总统计
- count 非na值的数量
- min、max 计算最小值和最大值
- idxmin、idxmax 计算能够获取到最大值和最小值得索引值
- quantile 计算样本的分位数(0到1)
- sum 值的总和
- mean 值得平均数
- median 值得算术中位数(50%分位数)
- mad 根据平均值计算平均绝对离差
- var 样本值的方差
- std 样本值的标准差
- skew 样本值得偏度(三阶矩)
- kurt 样本值得峰度(四阶矩)
- cumsum 样本值得累计和
- cummin,cummax 样本值得累计最大值和累计最小值
- cumprod 样本值得累计积
- diff 计算一阶差分
- pct_change 计算百分数变化
- 查看函数的详细信息
- 更多的函数
panel类型数据分解成dataframe
- panel类型数据分解成dataframe方法
- 更多panel操作指路
研究内存取dataframe
- 把dataframe存成csv文件——df.to_csv()
- 读取被存成csv文件的dataframe——pd.read_csv()
欢迎反馈建议:)