La generación de muestras aleatorias a partir de conjunto de datos es una tarea bastante habitual. Al realizar el entrenamiento de un modelo supervisado es habitual dejar un conjunto de datos para una validación posterior. También en algunos estudios estadísticos pueden realizarse únicamente con un conjunto de los datos originales. Por este motivo los objetos DataFrame
de pandas incluyen el método sample()
para realiza la selección de una submuestra en Python.
A modo de ejemplo se utilizará un conjunto de datos con las propinas que han recibido los empleados de un restaurante. Este conjunto de datos se puede encontrar en la librería seaborn y consta de 244 registros y 7 características. El código para realizar la importación de los datos se muestra a continuación.
from seaborn import load_dataset df = load_dataset("tips")
Selección de una submuestra aleatoria
El método más fácil para obtener una submuestra aleatoria de un objeto DataFrame
es mediante el método sample()
. El número de registro se puede indicar mediante el parámetro n
. Si no se indica nada el método devolverá un nuevo objeto con único registro, en caso contrario el resultado tendrá la cantidad indicada filas. Esto es lo que se muestra en el siguiente ejemplo.
df.sample().shape # (1, 7) df.sample(25).shape # (25, 7) df.sample(n=50).shape # (50, 7)
El dataframe original ha de contener por lo menos la cantidad de filas indicados. En el caso de que se intente generar una submuestra de un tamaño mayor al original se obtendrá un error. Esto es así porque el muestreo se realiza sin por defecto sin reemplazo. Para modificar este comportamiento se puede cambiar el parámetro replace
a True
. El funcionamiento de este parámetro se puede ver a continuación.
df.sample(n=50, replace=True).shape # (50, 7) df.sample(n=500, replace=True).shape # (500, 7)
Obtener un porcentaje de la muestra original
En lugar de indicar el número de registros de la submuestra se puede utilizar el porcentaje de registros. Para ello se ha de emplear la opción frac
con un valor entre 0 y 1.
df.sample(frac=0).shape # (0, 7) df.sample(frac=0.5).shape # (122, 7) df.sample(frac=1).shape # (244, 7)
Al igual que en el caso anterior la opción por defecto es sin reemplazo. Si se desea generar una muestra de mayor tamaño solamente se han de configurar correctamente el parámetro replace
.
df.sample(frac=1, replace=True).shape # (244, 7) df.sample(frac=1.5, replace=True).shape # (366, 7) df.sample(frac=2, replace=True).shape # (488, 7)
Nótese que con cuando se genera una submuestra de 244 registros con y sin reemplaza no se obtendrá el mismo objeto. En el primer caso, sin reemplazo, se obtendrán los mismos registros que el objeto original. En el segundo caso, con reemplazo, posiblemente más de un registro del original aparecerán duplicados mientras otros no.
Fijar la semilla del generador de número aleatorios
Para poder reproducir los resultados en diferentes sesiones se puede fijar la semilla utilizada por el generador de números aleatorios. Esto se puede conseguir asignando un número al parámetro random_state
. Por ejemplo, el código siguiente código generará siempre el mismo conjunto de datos.
df.sample(n=3, random_state=1)
Selección de las filas con peso
Hasta ahora todas las filas se han seleccionado con la misma probabilidad. Pero el método permite indicar una columna con la que se asigna una probabilidad diferente a cada fila. Para lo que se utiliza el parámetro weights
. A modo de ejemplo en el siguiente código se pondera el muestreo con el tamaño de la mesa.
df.sample(n=10, weights='size')
Utilización de filtros
El método sample()
se puede combinar con filtro para utilizar únicamente los datos que cumplen un requisito. Por ejemplo, se puede seleccionar una muestra de 10 registros solamente entre los que tienen 4 o más comensales.
df[df['size'] > 3].sample(n=10)
Conclusiones
Se ha visto el funcionamiento del método sample()
de los dataframes de pandas para obtener una submuestra en Python. El número de registros se puede indicar directamente o como un porcentaje del total. Por otro lado, la muestra también se puede realizar con o sin reemplazo. A un nivel más avanzado también se ha visto cómo es posible utilizar una variable para modificar la probabilidad para cada una de las filas.
Imágenes: Pixabay (Arek Socha)
Deja una respuesta