Descargar el código e instalar las dependencias, en mi caso usu virtualenv
$ git clone [email protected]:c2d050131e10ea6045f29b13789a9d1a.git gender_from_csv
$ cd gender_from_csv
$ virtualenv .venv
$ source .venv/bin/activate
$ pip install -r requirements.txtEn el archivo get_gender.py designar la columna que tiene el nombre en la variable COL_NAMES
COL_NAMES = "nombres"En el contexto que se usó este código, los nombres venian en una misma columna sin separadores de ningún tipo: Apellido + Nombre1 + (nombre2)?.
En el caso de tener los nombre de otra manera en el csv, ya sea en distintas columnas o con otro tipó de delimitador deberá modificar las siguientes lineas:
nombre_long = re.sub("\(|\)|\.|[0-9]", "", row[COL_NAMES])
n2, n1 = nombre_long.strip().split(" ")[-2:]
nombre = n2 if len(n1)<2 and n2 else n1
print nombreLanzar el programa
$ python get_gender.py path/to/my_csv.csvPor default se genera el archivo ./output_all.csv con el output de los datos separado por |.
- Los nombres compuestos no funcionan correctamente, ej: José María || María José
- Hay que agrandar la base de datos de los nombres para encontrar mas matchs gender-detector de Marco Vanetta
- Agregar la posibilidad de cambiar el nombre del archivo de output