PROSAGA码农传奇-测试训练-在Python sklearn中，如何检索测试/训练数据中的样本/变量名称？

在Python sklearn中，如何检索测试/训练数据中的样本/变量名称？

作者: 记忆短浅♡思念不变
发布时间: 2025-02-19 04:34:45 (12天前)
转自：

<div class =“post-text”itemprop =“text”>
  <P>
    如果你做
     <code>
      id
    </code>
     的指数
     <code>
      df
    </code>
    ，你将在运行后保留索引值
     <code>
      train_test_split
    </code>
    。
首先，让我们生成一些示例数据：
  </p>
   <pre>
    <code>
      import numpy as np
import pandas as pd

N = 10
ids = ['a','b','c','d','e','f','g','h','i','j']
values = np.random.random(N)
classes = np.random.binomial(n=1,p=.5,size=N)
df = pd.DataFrame({'id':ids,'predictor':values,'label':classes})

</code>
  </pre>
  <P>
    然后明确设置
     <code>
      id
    </code>
     作为索引：
  </p>
   <pre>
    <code>
      df.set_index('id', inplace=True)

</code>
  </pre>
  <P>
    现在
     <code>
      df
    </code>
     看起来像这样：
  </p>
   <pre>
    <code>
          label  predictor
id                  
a       1   0.214636
b       0   0.466477
c       1   0.300480
d       1   0.378645
e       0   0.755834
f       1   0.506719
g       0   0.948360
h       0   0.736498
i       1   0.058591
j       1   0.997003

</code>
  </pre>
  <P>
    使用Pandas对象拆分到训练/测试集将保留其原始索引值：
  </p>
   <pre>
    <code>
      X = df.predictor
y = df.label

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4)

print(X_train)
id
a    0.214636
b    0.466477
d    0.378645
j    0.997003
i    0.058591
f    0.506719
Name: predictor, dtype: float64

</code>
  </pre>
</DIV>