Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Herramientas Analíticas

Summit
September 05, 2018

Herramientas Analíticas

AutoML en práctica.

Summit

September 05, 2018
Tweet

More Decks by Summit

Other Decks in Technology

Transcript

  1. BIG DATA Agosto 25 y 26 | Lima – Perú

    2018 ANALYTICS SUMMIT #BIGDATASUMMIT2018
  2. Hola! Soy Daniel Soto Managing Partner de Timi, Exec Director

    Timi Latam Lic. Ulg, M.Sc. PSU Me puedes encontrar como [email protected]
  3. ESTRA PREDECIR DESPEGAR INTEGRAR TEGIA #BIGDATASUMMIT2018 Timi Suite is designed

    to generate powerful predictive models from extraordinary amount of data, without technological limitations The Power of Predictions
  4. Modelos Automatizados: necesidades Técnicas #BIGDATASUMMIT2018 Usar una estructura en RAM

    es poco eficiente Cargar la data 01 … y obtener un modelo de calidad razonable Procesar la información 02 Para necesitar una intervención humana mínima Automatizar 03
  5. Modelos Automatizados: necesidades Técnicas #BIGDATASUMMIT2018 SQL, Banda, y algorimos Leer

    y Grabar 01 Procesador y Algoritmos Ordenar 02 RAM, Algoritmos y Procesador Agrupar 03
  6. Como Ayuda Timi? Desarrollo en Assembler, C y C++, permite

    un procesamiento optimo de la data (4.000.000 filas / segundo). Alta Velocidad 03 Con R, Python y JavaScript Multi-hilo, nodos especiales para transformaciones analíticas…. ¡Sin RAM! Diseñado para Analytics 04 ODBC, OleDB y conector batch DB2, Teradata, Oracle. Conectores Optimizados 01 Para minimizar el espacio y el tiempo de lectura Alta Compresión 02
  7. • Generación de Variables ො = ෍ =−1 − 0,

    + ෍ =−1 − 1, ∆(|−1) + ( Ԧ ) + ( Ԧ ) TARGETC: SALES TARGETB: Sale 0/1 TARGETB: Return 0/1 Sales in time T-1 - > T-12 Delta Sales in time T-1 - > T-12 Client Characteri stics Aggregate information about Purchase History Date (month, year) Value t-1 Value t-2 Value t-3 Value t-4 Value t-5 Value t-6 Value t-7 Value t-8 Value t-9 Value t-10 Value t-11 Observacion 1 Observacion 2 Observacion 3 Observacion 4 Observacion 5 Observacion 6 Observacion 7 Observacion 8 Observacion 9 Observacion 10 Observacion 11 Estructura Triangular = , ,−4 , − ,−1 53 941 372 de agregaciones en el ejemplo
  8. El datalake analítico comunalmente tiene mas de 20.000 columnas. No

    se puede especificar manualmente cuales usar.. Selección de variables 01 Reto Hay que corer varios miles de modelos para poder parametrizar evitando el sobreajuste Parametrización 02 Reto Los problemas de Data Mining tienen un porcentaje bajo de target… que requieren millones de registros para poder ajustar un modelo decente. Cantidad de Obs. 03 Reto • Modelamiento • Si falta un elemento… es selección de modelos, no modelamiento Learning and Validation Datasets (T) K-Fold Cross Validation Test Dataset (T) Back-Test Dataset (T+1)
  9. Demand prediction to optimize Stock re-fills 1/3 Se aplica el

    modelo a las ultimas 2 semanas de ventas para validar en Azul, se observan las ventas reales, en naranja, las predicciones del modelo. 4 años de histórico transaccional, > 50 millones Validación Se usa todo el histórico (menos las ultimas dos semanas ) para crear el modelo Cada modelo usa una selección única de variables (de centenares de candidatas). Se debe determinar CUAL SKU para CADA CLIENTE, cada DIA del año.
  10. Demand prediction to optimize Stock re-fills 2/3: Prediction of “Cans”

    purchase 13 Club Colombia Lata Modelos de alta precisión entre 81% y 92%. Algunas cifras : • 116 millones de modelos intermediarios “sencillos” (6h para crearlos en un laptop). • Desarrollo del piloto 20 días hábiles (4 meses de proyecto completo) • Calidad de datos 5.842 reglas. • 30.000 Modelos de cantidad (7h to para la creación en un laptop) Club Roja Lata Club Negra Lata
  11. Demand prediction to optimize Stock re-fills 3/3: Deliverable 14 Resultados:

    Cada día, se sabe cual tienda comprara cual producto. Podemos pegar esos modelos con los modelos de cantidad para estimar las necesidades de producción. El scoring se hace en una fracción de segundos (+/- 2.400.000 scores por segundo) y se integra automáticamente a Qlik, Tableau, u otro sistema de DB/BI.