Por múltiples motivos es bastante habitual que un conjunto de datos llegue en varios archivos CSV en lugar de uno único. Algo que generalmente obliga unirlo en uno antes de poder realizar los análisis. Aunque es una tarea sencilla, puede ser tediosa si se repite de forma habitual. Para solucionar esto, se puede crear una función con Pandas para unir múltiples archivos CSV en uno solo. Tanto sea para usar en memoria como para guardar en el disco.
Importar archivos CSV con Pandas
La importación de la información contenida en archivos CSV es una tarea extremadamente sencilla en Pandas, solamente se tiene que indicar la ruta a la función read_csv()
. Así para importar los datos de un archivo que se encuentra en una carpeta solamente se tiene que escribir algo como los siguientes.
import pandas as pd df = pd.read_csv('data/MOCK_DATA.csv') df.head() print(df.head())
id first_name last_name email gender ip_address 0 1 Ermanno Conrard [email protected] Male 255.98.19.201 1 2 Ulick Manders [email protected] Male 234.217.41.124 2 3 Berti Sumbler [email protected] Genderqueer 101.121.178.197 3 4 Brant Beaushaw [email protected] Male 59.0.246.5 4 5 Davie Truran [email protected] Male 190.37.41.180
Existen múltiples opciones en la función read_csv()
para gestionar la importación de archivos tales como omitir filas o usar diferentes delimitadores.
Obtener el listado de archivos en una carpeta
El segundo punto para concatenar los archivos CSV es obtener el listado de estos. Algo que se puede hacer manualmente, pero, cuando el número de archivos es grande o estos cambian, es más cómodo usar Python para ello. El listado de archivos en una carpeta se puede obtener con la función listdir()
de Python que se encuentra en las funciones del sistema operativo (os
). Así, los archivos de la carpeta data se pueden obtener con
import os os.listdir('data')
['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv', '.DS_Store']
Nótese que en esta función devuelve todos los archivos, no solamente los CSV, por lo que puede ser necesario filtrar el resultado. Algo que se puede hacer por ejemplo mediante una lista por comprensión.
[file for file in os.listdir(path) if '.csv' in file]
['MOCK_DATA.csv', 'MOCK_DATA_2.csv', 'MOCK_DATA_3.csv']
Ahora, es necesario obtener la ruta completa a todos los archivos, concatenando la ruta a la carpeta con los nombres de los archivos. Para esto la mejor opción es usar la función os.path.join()
, al evitar tener que preocuparnos por el hecho de que el código se ejecute en Windows o UNIX. Lo que se muestra en el siguiente código.
path = 'data' [os.path.join(path, file) for file in os.listdir(path) if '.csv' in file]
['data/MOCK_DATA.csv', 'data/MOCK_DATA_2.csv', 'data/MOCK_DATA_3.csv']
Moviéndose la ruta a una variable (path
) para facilitar la lectura y el mantenimiento del código.
Combinar múltiples archivos CSV en uno con Pandas
Una vez se tiene una el listado de archivos solamente hay que importarlos y concatenarlos. En Pandas para esto se pueden conseguir usando las funciones pd.read_csv()
, lectura de los datos, y pd.concat()
, concatenación de DataFrames. Empleando programación funcional para facilitar el proceso. En concreto mediante el uso de map()
es posible ejecutar pd.read_csv()
sobre el listado de archivos, obteniendo un listado de DataFrames. Resultado que se puede concatenar con pd.concat()
, ignorando los índices ya que esto se repiten en cada importación. Lo que se puede hacer con el siguiente código.
df = pd.concat(map(pd.read_csv, files), ignore_index=True) df.shape
(3000, 6)
Obteniendo en df
los tres archivos en un único DataFrame. Finalmente, el resultado se puede guardar en un archivo con la propiedad to_csv()
que tienen todos los DataFrames.
df.to_csv('mock_join.csv')
También se puede guardar los datos en otros formatos como Excel con los métodos de Pandas.
Conclusiones
En esta ocasión se ha visto cómo se pueden combinar las funciones de Python y Pandas para poder combinar múltiples archivos CSV en uno solo. Tarea que suele ser bastante habitual.
Apéndice: Función que implementa el proceso de unión de múltiples archivos CSV en uno
Dado que la combinación de archivos CSV es una tarea que se hace de forma habitual, crean una función para ello puede ser una buena idea. Así solo se tiene que llamar a la función. Por ello, con lo visto en la entrada, se puede crear la siguiente función.
import pandas as pd import os def join_csv(path=None, out_file=None): """ Combina los archivos CSV existentes en una carpeta y devolverlo como un DataFrame. Parameters ---------- path : string La ruta en la que se encuentran los archivos, si no se indica ninguna se usará la carpeta actual. out_file :string Archivo opcional en el que se guardará los resultados, en caso de que no se indique un nombre no se generará Returns ------- DataFrame Obejto DataFrame con la unión de los archivos CSV """ if path is None: files = [file for file in os.listdir() if '.csv' in file] else: files = [os.path.join(path, file) for file in os.listdir(path) if '.csv' in file] df = pd.concat(map(pd.read_csv, files), ignore_index=True) if out_file is not None: if path is None: df.to_csv(out_file) else: df.to_csv(os.path.join(path, out_file)) return df
Imagen de PublicDomainPictures en Pixabay
Gerber L. dice
Hola que excelente post, muchas gracias me ayudaste a entender como funciona todo esto, solo tengo una duda. Como resuelves este error: Error tokenizing data. C error: Expected 1 fields in line 1706, saw 2, Entiendo que mi data set tiene un problema dentro de la fila: Como lo quiero solucionar es con un: on_bad_lines=’skip’ pero no se donde colocarlo dentro de la expresión,
Slds muchas gracias!
Daniel Rodríguez dice
Hola Gerner, gracias por el comentario.
El error parece que el número de columnas en la línea 1706 no es correcta. Lo mejor es abrir el archivo con un editor de texto y comprobar esta línea para ver cuál es el problema. Si hay campos de texto, y no están cerrados con comillas, puede que alguno contenga el separador de campos.