如何使用 Matplotlib 进行数据分析?
1. 导入必要的库
import matplotlib.pyplot as plt
2. 加载数据
# 使用 pandas 读取 CSV 文件
data = pd.read_csv("your_data.csv")
# 使用 NumPy 读取数组
data = np.load("your_data.npy")
3. 数据预处理
# 缩放数据
data["feature"] = (data["feature"] - data["feature"].min()) / (data["feature"].max() - data["feature"].min())
# 标准化数据
data["feature"] = (data["feature"] - data["feature"].mean()) / data["feature"].std()
4. 创建图表
# 创建散布图
plt.scatter(data["feature1"], data["feature2"])
# 创建直方图
plt.hist(data["feature"])
# 创建 boxplot
plt.boxplot(data["feature"])
# 显示图
plt.show()
5. 设置参数
# 设置图表标题
plt.title("Data Analysis Plot")
# 设置坐标轴标签
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
# 设置图例
plt.legend()
6. 保存图
# 保存图片
plt.savefig("your_plot.png")
# 保存 Matplotlib 图形库
plt.savefig("your_plot.mat")
示例
import matplotlib.pyplot as plt
import pandas as pd
# 加载数据
data = pd.read_csv("data.csv")
# 创建散布图
plt.scatter(data["age"], data["salary"])
plt.title("Salary vs Age")
plt.show()
```