如何使用 Pandas 进行数据统计?

如何使用 Pandas 进行数据统计?

步骤:

  1. 导入 pandas 库
import pandas as pd
  1. 读取数据
# 读取 CSV 文件
data = pd.read_csv("your_file.csv")

# 读取 JSON 文件
data = pd.read_json("your_file.json")
  1. 数据预处理
  • 删除空值
  • 转换数据类型
  • 合并数据框
  1. 计算统计数据
  • 平均值
  • 标准差
  • 众数
  • 计数
  1. 输出结果
# 打印平均值
print(data["column_name"].mean())

# 打印标准差
print(data["column_name"].std())

# 打印众数
print(data["column_name"].mode())

示例:

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv("sales.csv")

# 计算平均销售价格
print(data["price"].mean())

# 计算标准差
print(data["price"].std())

# 打印众数
print(data["product"].mode())

其他功能:

  • 数据过滤:使用条件筛选数据
  • 数据分组:根据特定条件分组数据
  • 数据可视化:使用 matplotlib、seaborn 等库可视化数据

注意:

  • 确保数据文件格式正确,否则可能导致读取错误。
  • 可以使用 pandas 的其他方法来进行数据统计,例如 describe(), hist() 等。
相似内容
更多>