用pandas划分数据集实现训练集和测试集
1、使用model_select子模块中的train_test_split函数进行划分
数据:使用kaggle上Titanic数据集
划分方法:随机划分
#导入pandas模块,sklearn中model_select模块 importpandasaspd fromsklearn.model_selectimporttrain_test_split #读取数据 data=pd.read_csv('.../titanic_dataset/train.csv') #将特征划分到X中,标签划分到Y中 x=data.iloc[:,2:] y=data.loc['Survived'] #使用train_test_split函数划分数据集(训练集占75%,测试集占25%)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25,ramdon_state=0)
缺点:1、数据浪费严重,只对部分数据进行了验证
2、容易过拟合
2、k折交叉验证(kfold)
原理:将数据集划分成n个不相交的子集,每次选择其中一个作为测试集,剩余n-1个子集作为 训练集,共生成 n组数据
使用方法:sklearn.model_select.KFold(n_splits=5,shuffle=False,random_state=0)
参数说明:n_splits:数据集划分的份数,
shuffle:每次划分前是否重新洗牌,False表示划分前不洗牌,每次划分结果一样,True表示划分前洗牌,每次划分结果不同
random_state:随机种子数
(1)shuffle=False情况下数据划分情况
#不洗牌模式下数据划分情况 importnumpyasnp fromsklearn.model_selectionimportKFold x=np.arange(46).reshape(23,2) kf=KFold(n_splits=5,shuffle=False) fortrain_index,test_indexinkf.split(x): print(train_index,test_index) [5678910111213141516171819202122][01234] [0123410111213141516171819202122][56789] [01234567891516171819202122][1011121314] [0123456789101112131419202122][15161718] [0123456789101112131415161718][19202122]
(2)shuffle=True情况下数据划分情况
importnumpyasnp fromsklearn.model_selectionimportKFold x=np.arange(46).reshape(23,2) kf=KFold(n_splits=5,shuffle=True) fortrain_index,test_indexinkf.split(x): print(train_index,test_index) [0345678910111214151617192021][12131822] [01235671011131516171819202122][4891214] [0123478910121314151617181922][56112021] [123456891011121314151819202122][071617] [01245678911121314161718202122][3101519]
总结:从数据中可以看出shuffle=True情况下数据的划分是打乱的,而shuffle=False情况下数据的划分是有序的
到此这篇关于用pandas划分数据集实现训练集和测试集的文章就介绍到这了,更多相关pandas划分数据集内容请搜索毛票票以前的文章或继续浏览下面的相关文章希望大家以后多多支持毛票票!