如何使用 Python 和 Pandas 进行机器学习?
使用 Python 和 Pandas 进行机器学习的步骤:
- 导入必要的库
import pandas as pd
import numpy as np
- 读取数据
# 使用 pandas 读取 CSV 文件
data = pd.read_csv("your_data.csv")
# 使用 numpy 读取 NumPy数组
data_numpy = np.load("your_data.npy")
- 预处理数据
# 标准化数据
data["feature"] = (data["feature"] - np.min(data["feature"])) / (np.max(data["feature"]) - np.min(data["feature"]))
# 移除异常值
data.dropna(inplace=True)
- 创建模型
# 使用 scikit-learn 库创建线性回归模型
from sklearn.linear_model import LinearRegression
model = LinearRegression()
# 使用 scikit-learn 库训练模型
model.fit(data_numpy["feature"], data_numpy["target"])
- 评估模型
# 使用 scikit-learn 库评估模型
score = model.score(data_numpy["feature"], data_numpy["target"])
print(f"模型评分:{score}")
- 保存模型
# 将模型保存为 pickle 文件
with open("model.pkl", "wb") as f:
pickle.dump(model, f)
使用 Pandas 进行机器学习的示例:
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv("your_data.csv")
# 打印数据信息
print(data.info())
# 筛选数据
data_filtered = data[data["age"] > 25]
# 标准化数据
data_filtered["age"] = (data_filtered["age"] - np.min(data_filtered["age"])) / (np.max(data_filtered["age"]) - np.min(data_filtered["age"]))
# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(data_filtered["features"], data_filtered["target"])
# 打印模型评分
print(f"模型评分:{model.score(data_filtered['features'], data_filtered['target'])}")
```