如何使用 Scikitlearn 进行数据分析?
步骤 1:导入库
import seaborn as sns
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
步骤 2:加载数据
# 加载数据
data = pd.read_csv("your_data.csv")
步骤 3:预处理数据
- 标准化数据:使用
StandardScaler
进行标准化,以将数据缩放到平均为 0,标准差为 1。 - 转换数据类型:如果数据类型不匹配预期类型,可以使用
astype()
方法进行转换。
步骤 4:创建模型
# 创建线性回归模型
model = LinearRegression()
# 训练模型
model.fit(X_train, y_train)
步骤 5:评估模型
# 评估模型
score = model.score(X_test, y_test)
print("模型性能:", score)
步骤 6:预测
# 预测新数据点
new_data = pd.DataFrame({"features": [new_features]})
prediction = model.predict(new_data)
示例代码:
import seaborn as sns
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
# 加载数据
data = pd.read_csv("data.csv")
# 标准化数据
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(data["features"])
# 创建线性回归模型
model = LinearRegression()
model.fit(X_train_scaled, data["target"])
# 评估模型
score = model.score(X_test_scaled, data["target"])
print("模型性能:", score)
# 预测新数据点
new_data = pd.DataFrame({"features": [new_features]})
prediction = model.predict(new_data)
print("预测结果:", prediction)
注意:
-
X_train
和y_train
是训练数据中的特征和标签数据。 -
X_test
是测试数据中的特征数据。 -
new_features
是新数据点中的特征数据。 - 可以根据需要调整模型参数,例如学习率和迭代次数。