如何使用 Pandas 进行数据统计?
步骤:
- 导入 pandas 库:
import pandas as pd
- 读取数据:
# 读取 CSV 文件
data = pd.read_csv("your_file.csv")
# 读取 JSON 文件
data = pd.read_json("your_file.json")
- 数据预处理:
- 删除空值
- 转换数据类型
- 合并数据框
- 计算统计数据:
- 平均值
- 标准差
- 众数
- 计数
- 输出结果:
# 打印平均值
print(data["column_name"].mean())
# 打印标准差
print(data["column_name"].std())
# 打印众数
print(data["column_name"].mode())
示例:
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv("sales.csv")
# 计算平均销售价格
print(data["price"].mean())
# 计算标准差
print(data["price"].std())
# 打印众数
print(data["product"].mode())
其他功能:
- 数据过滤:使用条件筛选数据
- 数据分组:根据特定条件分组数据
- 数据可视化:使用 matplotlib、seaborn 等库可视化数据
注意:
- 确保数据文件格式正确,否则可能导致读取错误。
- 可以使用 pandas 的其他方法来进行数据统计,例如
describe()
,hist()
等。