如何使用 Pandas 库进行数据清洗?

如何使用 Pandas 库进行数据清洗?

步骤 1:导入库

import pandas as pd

步骤 2:读取数据

# 读取 CSV 文件
data = pd.read_csv("your_file.csv")

# 读取 JSON 文件
data = pd.read_json("your_file.json")

步骤 3:数据预处理

  • **数据转换:**使用 pd.to_numeric() 等方法将字符串类型的数据转换为数字类型。
  • **数据清洗:**使用条件语句或其他方法进行数据清洗,例如删除无效的记录或更改数据类型。
  • **数据分组:**使用 groupby() 方法对数据进行分组,并进行数据处理。

步骤 4:数据展示

# 打印数据
print(data)

# 创建数据可视化
data.plot()

示例

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv("sales_data.csv")

# 转换字符串类型数据
data["product_name"] = data["product_name"].str.lower()

# 删除无效的记录
data.dropna(inplace=True, subset="sales")

# 打印数据
print(data)

其他功能

  • **数据过滤:**使用条件语句过滤数据。
  • **数据合并:**使用 merge() 方法合并数据。
  • **数据转换:**使用 to_datetime() 等方法将日期类型的数据转换为 datetime 类型。
  • **数据加密:**使用 encrypt() 方法对数据进行加密。
相似内容
更多>