Evolución del razonamiento matemático de GPT-4.1 a GPT-5 - Data Aventura Summit 2025 & VSCode DevDays

DATA AVENTURA SUMMIT 2025 EXCEL AI POWER BI

ORGANIZADORES #DATA AVENTURASUMMIT Yanina Ariadna Coordina y Modera Data Aventurera
Paula Bria Coordina Modera y Expone Data Aventurera Nelly González Coordina y Expone Data Aventurera Karen Contreras Coordina y Expone Data Aventurera

PONENTES KAREN CONTRERAS LAUTARO CARRO PABLO PIOVANO GIANELLA PASCAL NELLY
GONZÁLEZ ANNABELLA CHENAL KEVIN CACERES MARIANGEL MENDOZA BRUNO CAPUANO PAULA BRIA

SPONSORS

Evolución del razonamiento matemático de GPT-4.1 a GPT-5 Lautaro Carro
Microsoft MVP – AI Researcher #DATA AVENTURASUMMIT

¿Cuántas R tiene la palabra Strawberry?

¿Cómo se puede solucionar?

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model
(GPT, Llama, Claude, Gemini) El gato duerme en el sillón

(GPT, Llama, Claude, Gemini) El El gato duerme en el sillón

(GPT, Llama, Claude, Gemini) Gato El El gato duerme en el sillón

(GPT, Llama, Claude, Gemini) Duerme Gato El gato duerme en el sillón

(GPT, Llama, Claude, Gemini) En Duerme El gato duerme en el sillón

(GPT, Llama, Claude, Gemini) El En El gato duerme en el sillón

(GPT, Llama, Claude, Gemini) Sillón El El gato duerme en el sillón

(GPT, Llama, Claude, Gemini) Sillón El gato duerme en el sillón

Respuesta correcta era $1,183.25 Sin separar en pasos Aumenta un
60% las probabilidades de dar respuestas erróneas. Matemáticas

Respuesta correcta es $1,183.25 Separando en pasos Separando en pasos
aumenta un 73% las probabilidades de lograr un resultado correcto. • El LLM construye una respuesta más enriquecida en tokens. • Aumenta la información del contexto. Matemáticas

Inteligencia Artificial que Razona

GPT Razonamiento GPT-o1 (GPT Strawberry) GPT-o3 GPT-5

Desafio GPT V.S GPT GPT-5 GPT-4.1 $549.72 + $688.40 +
$741.00 + $835.25 + $552.00 + $976.16 + $829.12 + $720.50 + $915.25 + $887.40 + $642.75 + $610.80 + $993.60 + $812.95 + $945.80 + $923.15 + $878.40 + $956.25 + $599.90 + $732.50 + $864.35 + $910.40 + $912.75 + $965.90 + $987.30 + $820.50 + $998.25 + $934.60 + $999.99 + $945.25 + $950.60 + $920.00 + $978.15 + $910.40 + $933.33 + $800.00 + $912.50 + $974.25 + $996.75 + $925.40 + $841.80 + $919.90 = $36,193.27

GPT Razonamiento GPT-4.1 Sin Pasos 892 milisegundos 242 Tokens El
resultado correcto de la suma es $36,193.27

GPT Razonamiento GPT-4.1 Separando en pasos

GPT Razonamiento GPT-4.1 Separando en pasos 5.27 segundos 1029 Tokens
El resultado correcto de la suma es $36,193.27

GPT Razonamiento GPT-5 Sin Pasos 13.6 segundos 2286 Tokens El
resultado correcto de la suma es $36,193.27

GPT Razonamiento GPT-5 Separando en pasos

GPT Razonamiento GPT-5 Separando en pasos 35.5 segundos 3.452 Tokens
El resultado correcto de la suma es $36,193.27

Resultados GPT 4.1 Sin Pasos GPT 4.1 Con Pasos GPT
5 Sin Pasos GPT 5 Con Pasos Correcto? Duración 892 ms 5.27 seg 13.4 seg 36.5 Tokens 242 1027 2286 3452 Precios Input: $2.00 / 1M tokens Output: $8.00 / 1M tokens Input: $1.25 / 1M tokens Output: $10.00 / 1M tokens

Conclusiones

ChatGPT, ¿Sirve o no para hacer cálculos? Conclusiones

Conclusiones

Conclusiones Conclusiones OpenAI no solo logró avances en matemáticas, se
acerca a otras áreas como salud. El Prompt Engineering es un plus clave al trabajar con LLMs. En soluciones de software, analizar si GPT-4.1 es suficiente.

Muchas Gracias! Lautaro Carro Microsoft MVP – AI Researcher #DATA
AVENTURASUMMIT

Evolución del razonamiento matemático de GPT-4...

Evolución del razonamiento matemático de GPT-4.1 a GPT-5 - Data Aventura Summit 2025 & VSCode DevDays

Lautaro Carro

More Decks by Lautaro Carro

Other Decks in Technology

Featured

Transcript

DATA AVENTURA SUMMIT 2025 EXCEL AI POWER BI

ORGANIZADORES #DATA AVENTURASUMMIT Yanina Ariadna Coordina y Modera Data Aventurera

PONENTES KAREN CONTRERAS LAUTARO CARRO PABLO PIOVANO GIANELLA PASCAL NELLY

SPONSORS

Evolución del razonamiento matemático de GPT-4.1 a GPT-5 Lautaro Carro

¿Cuántas R tiene la palabra Strawberry?

¿Cómo se puede solucionar?

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

LLM - Transformer ¿Cómo funcionan los LLM? Large Language Model

Respuesta correcta era $1,183.25 Sin separar en pasos Aumenta un

Respuesta correcta es $1,183.25 Separando en pasos Separando en pasos

Inteligencia Artificial que Razona

GPT Razonamiento GPT-o1 (GPT Strawberry) GPT-o3 GPT-5

Desafio GPT V.S GPT GPT-5 GPT-4.1 $549.72 + $688.40 +

GPT Razonamiento GPT-4.1 Sin Pasos 892 milisegundos 242 Tokens El

GPT Razonamiento GPT-4.1 Separando en pasos

GPT Razonamiento GPT-4.1 Separando en pasos 5.27 segundos 1029 Tokens

GPT Razonamiento GPT-5 Sin Pasos 13.6 segundos 2286 Tokens El

GPT Razonamiento GPT-5 Separando en pasos

GPT Razonamiento GPT-5 Separando en pasos 35.5 segundos 3.452 Tokens

Resultados GPT 4.1 Sin Pasos GPT 4.1 Con Pasos GPT

Conclusiones

ChatGPT, ¿Sirve o no para hacer cálculos? Conclusiones

Conclusiones

Conclusiones Conclusiones OpenAI no solo logró avances en matemáticas, se

Muchas Gracias! Lautaro Carro Microsoft MVP – AI Researcher #DATA