Capítulo 6 Modelos

6.1 Feature engineering

A partir de la variable created_date (día-mes-año en que se levantó la queja) se crearon las siguientes variables:

Variable Descripción
complain_type tipo de queja = noise
number_cases número de casos registrados en el día
mean_month promedio de casos registrados en un mes (histórico)
number_cases > mean_month variable indicadora – día con número de quejas superiores al promedio del mes
created_date_day día del mes en que se levantó la queja (1-31) – one hot encoding
created_date_month indicador del mes de registro de la queja (1-12) – one hot encoding
created_date_dow día de la semana en que se levantó la queja (1-7) – one hot encoder
created_date_year año de registro de la queja – one hot encoding
created_date_woy número de semana del año en que fue registrada la queja (1-52) – one hot encoding
date_holiday indicador binario si el día en que se registro la queja fue un feriado o no
number_cases_1day_ago número de casos registrados 1 día antes
number_cases_2days_ago número de casos registrados dos días antes
number_cases_3days_ago número de casos registrados tres días antes
number_cases_4days_ago número de casos registrados cuatro días antes
number_cases_5days_ago número de casos registrados cinco días antes

Estas variables fueron empleadas en el modelado.

Propuestas a futuro:

  • Aumentar las variables cambiando el número de días anteriores: {1,2,3,4,5,6,7,,8,9,10,…}
  • Segmentar por zonas geográficas. La siguiente liga contiene información por explorar:
    • Buscar información de número de pobladores por zona
    • Información del tipo de residencias existentes (número de casas/departamentos/edificios)
    • Ingreso promedio por zona
    • Etnias

6.2 Tuneo de hiperparámetros

En un futuro nos gustaría mejorar nuestras predicciones con la implementación de algún gridsearch o magic loop.

6.3 Selección de Modelos

Para predecir si la Policía Departamental de Nueva York, en un día determinado, recibirá un número de quejas (o peticiones de servicio) por encima del promedio diario esperado para un mes determinado, implementamos los siguientes modelos:

  1. Random Forest

Hiperparámetros asociados:

  • max_depth =\(10\)
  • criterio =‘gini’
  • n_estimators= \(100\)

Acurracy:

Training Validation Test
0.959496 0.839449 0.75935

Nota: Para ver el código asociado a cada modelo, remitirse a la siguiente carpeta: model.

Para ver el código asociado a los tasks que mandan a correr estos modelos y los guardan en un pickle en S3, revisar la carpeta: luigi.