Herramientas Analíticas

BIG DATA Agosto 25 y 26 | Lima – Perú
2018 ANALYTICS SUMMIT #BIGDATASUMMIT2018

Tema: Herramientas analíticas: AutoML en practica

Hola! Soy Daniel Soto Managing Partner de Timi, Exec Director
Timi Latam Lic. Ulg, M.Sc. PSU Me puedes encontrar como [email protected]

ESTRA PREDECIR DESPEGAR INTEGRAR TEGIA #BIGDATASUMMIT2018 Timi Suite is designed
to generate powerful predictive models from extraordinary amount of data, without technological limitations The Power of Predictions

Herramientas de Timi

Modelos Automatizados: necesidades Técnicas #BIGDATASUMMIT2018 Usar una estructura en RAM
es poco eficiente Cargar la data 01 … y obtener un modelo de calidad razonable Procesar la información 02 Para necesitar una intervención humana mínima Automatizar 03

Modelos Automatizados: necesidades Técnicas #BIGDATASUMMIT2018 SQL, Banda, y algorimos Leer
y Grabar 01 Procesador y Algoritmos Ordenar 02 RAM, Algoritmos y Procesador Agrupar 03

Como Ayuda Timi? Desarrollo en Assembler, C y C++, permite
un procesamiento optimo de la data (4.000.000 filas / segundo). Alta Velocidad 03 Con R, Python y JavaScript Multi-hilo, nodos especiales para transformaciones analíticas…. ¡Sin RAM! Diseñado para Analytics 04 ODBC, OleDB y conector batch DB2, Teradata, Oracle. Conectores Optimizados 01 Para minimizar el espacio y el tiempo de lectura Alta Compresión 02

• Generación de Variables ො = ෍ =−1 − 0,
+ ෍ =−1 − 1, ∆(|−1) + ( Ԧ ) + ( Ԧ ) TARGETC: SALES TARGETB: Sale 0/1 TARGETB: Return 0/1 Sales in time T-1 - > T-12 Delta Sales in time T-1 - > T-12 Client Characteri stics Aggregate information about Purchase History Date (month, year) Value t-1 Value t-2 Value t-3 Value t-4 Value t-5 Value t-6 Value t-7 Value t-8 Value t-9 Value t-10 Value t-11 Observacion 1 Observacion 2 Observacion 3 Observacion 4 Observacion 5 Observacion 6 Observacion 7 Observacion 8 Observacion 9 Observacion 10 Observacion 11 Estructura Triangular = , ,−4 , − ,−1 53 941 372 de agregaciones en el ejemplo

El datalake analítico comunalmente tiene mas de 20.000 columnas. No
se puede especificar manualmente cuales usar.. Selección de variables 01 Reto Hay que corer varios miles de modelos para poder parametrizar evitando el sobreajuste Parametrización 02 Reto Los problemas de Data Mining tienen un porcentaje bajo de target… que requieren millones de registros para poder ajustar un modelo decente. Cantidad de Obs. 03 Reto • Modelamiento • Si falta un elemento… es selección de modelos, no modelamiento Learning and Validation Datasets (T) K-Fold Cross Validation Test Dataset (T) Back-Test Dataset (T+1)

Automated Machine Learning Demo ¡en Vivo!

Demand prediction to optimize Stock re-fills 1/3 Se aplica el
modelo a las ultimas 2 semanas de ventas para validar en Azul, se observan las ventas reales, en naranja, las predicciones del modelo. 4 años de histórico transaccional, > 50 millones Validación Se usa todo el histórico (menos las ultimas dos semanas ) para crear el modelo Cada modelo usa una selección única de variables (de centenares de candidatas). Se debe determinar CUAL SKU para CADA CLIENTE, cada DIA del año.

Demand prediction to optimize Stock re-fills 2/3: Prediction of “Cans”
purchase 13 Club Colombia Lata Modelos de alta precisión entre 81% y 92%. Algunas cifras : • 116 millones de modelos intermediarios “sencillos” (6h para crearlos en un laptop). • Desarrollo del piloto 20 días hábiles (4 meses de proyecto completo) • Calidad de datos 5.842 reglas. • 30.000 Modelos de cantidad (7h to para la creación en un laptop) Club Roja Lata Club Negra Lata

Demand prediction to optimize Stock re-fills 3/3: Deliverable 14 Resultados:
Cada día, se sabe cual tienda comprara cual producto. Podemos pegar esos modelos con los modelos de cantidad para estimar las necesidades de producción. El scoring se hace en una fracción de segundos (+/- 2.400.000 scores por segundo) y se integra automáticamente a Qlik, Tableau, u otro sistema de DB/BI.

Herramientas Analíticas

Herramientas Analíticas

Summit

More Decks by Summit

Other Decks in Technology

Featured

Transcript

BIG DATA Agosto 25 y 26 | Lima – Perú

Tema: Herramientas analíticas: AutoML en practica

Hola! Soy Daniel Soto Managing Partner de Timi, Exec Director

ESTRA PREDECIR DESPEGAR INTEGRAR TEGIA #BIGDATASUMMIT2018 Timi Suite is designed

Herramientas de Timi

Modelos Automatizados: necesidades Técnicas #BIGDATASUMMIT2018 Usar una estructura en RAM

Modelos Automatizados: necesidades Técnicas #BIGDATASUMMIT2018 SQL, Banda, y algorimos Leer

Como Ayuda Timi? Desarrollo en Assembler, C y C++, permite

• Generación de Variables ො = ෍ =−1 − 0,

El datalake analítico comunalmente tiene mas de 20.000 columnas. No

Automated Machine Learning Demo ¡en Vivo!

Demand prediction to optimize Stock re-fills 1/3 Se aplica el

Demand prediction to optimize Stock re-fills 2/3: Prediction of “Cans”

Demand prediction to optimize Stock re-fills 3/3: Deliverable 14 Resultados: