Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT

Gustavo Pinto @gustavopinto gustavopinto.org Grading Open-Ended Questions Using ChatGPT [email protected]
ML4SE.substack.com Large Language Models for Education:

@gustavopinto ML4SE.substack.com Caramba, Não tenho tempo! Que legal, novo framework!

@gustavopinto ML4SE.substack.com handora.zup.com.br

@gustavopinto ML4SE.substack.com

@gustavopinto ML4SE.substack.com Que legal, Nova resposta!

@gustavopinto ML4SE.substack.com Caramba, Tem que corrigir!

@gustavopinto ML4SE.substack.com Primeira tentativa: Deep Learning Treinamos 8 modelos de
DL para avaliar bons códigos

@gustavopinto ML4SE.substack.com Segunda tentativa: ChatGPT Correção de questões abertas via
ChatGPT Qual a qualidade da correção fornecida pelo ChatGPT?

@gustavopinto ML4SE.substack.com Utiliza aprendizado profundo para interpretar consultas Estado da
Arte dos modelos linguísticos Treinado em amplo corpus linguístico heterogêneo Utilizado em diversas áreas do conhecimento

@gustavopinto ML4SE.substack.com Etapas do estudo 1. Design das provas 2.
Coleta de respostas 3. Correção das provas

@gustavopinto ML4SE.substack.com 1. Design das provas Caching Performance Q1. Explique
com suas palavras o que você entende sobre caching de aplicações REST? (Fácil) Q2. Explique brevemente o funcionamento dos dois tipos de caching. (Médio) Q3. Explique o invalidação de cache em aplicações REST e apresente uma forma de resolve-lo. (Difícil) Q1. Explique o conceito de teste de carga e estresse? (Fácil) Q2. Quais são as principais métricas utilizadas para avaliar o desempenho de uma aplicação durante um teste de carga? (Médio) Q3. Quais são as melhores práticas para realizar testes de carga em aplicações que expõem APIs REST? (Difícil)

@gustavopinto ML4SE.substack.com 1. Design das provas Q1. Explique com suas
palavras o que você entende sobre caching de aplicações REST? Caching é uma técnica que permite armazenar dados que são acessados frequentemente em memória, a fi m de reduzir o custo de complexidade da consulta dos mesmos. Hoje em dia existem diversas formas de aplicar caching em REST APIs, iniciando ao lado do servidor através de técnicas de cache local e distribuído. E também é possível habilitar o caching}ao lado cliente, onde através do uso de cabeçalhos do protocolo HTTP, é de fi nido politicas que regem o comportamento do caching, como por exemplo, o uso de versões, tempo de expiração e também de fi nir quais clientes podem armazenar os dados, no caso referindo ao navegador do usuário fi nal e/ou CDNs. “ ” Zupper Expert

@gustavopinto ML4SE.substack.com 2. Coleta de respostas Respostas Especialistas Q1. Q2.
Q3. Q4. Q5. Q6. Respostas Zuppers Respostas ChatGPT Q1. Q2. Q3. Q4. Q5. Q6. Q1. Q2. Q3. Q4. Q5. Q6. N = 44

@gustavopinto ML4SE.substack.com 3. Correção das provas Eu preciso que você
realize correções de provas usando a régua de correção mais alta que você puder. Considere a seguinte questão e a seguinte resposta de um especialista: Q: Explique com suas palavras o que você entende sobre caching de aplicações REST? R especialista: Agora, considere a resposta de um aluno, fornecida abaixo. R aluno: Qual nota você daria para a resposta do aluno, levando em consideração a resposta do especialista, numa escala de 0 a 10? Devolva a resposta em um formato JSON, com uma variável 'nota', com a sua nota, e uma outra variável 'explicacao' com a explicação para esta nota. Sua explicação deve ter ao menos 20 palavras. Na explicação, identi fi que lacunas de conhecimento e explique de forma que minimize essa lacuna, utilizando exemplos reais. Caso não seja fornecida uma reposta, retorne 'Nenhuma resposta foi informada', e de nota zero. Modelo: GPT-4, Temperatura: 0.6

@gustavopinto ML4SE.substack.com 3. Correção das provas Q1. Q2. Q3. Q4.
Q5. Q6. Respostas Questões Dataset Experimento 1 Experimento 2 Expert Aluno Expert Aluno Q1 Q2 Q3 Q4 Q5 Q6 Experimentos

@gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim
Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046

Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 O aluno explicou bem o cache do lado do servidor, incluindo estratégias monolíticas e distribuídas, mas não mencionou o cache do lado do cliente. No cache do lado do cliente, os dados são armazena “ ” "O foi cirúrgico, e percebeu que minha resposta estava incompleta. Eu acredito que a nota foi mais alta do que deveria. Eu mesmo me daria uns 5.”

Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 A resposta do aluno abordou corretamente as métricas response time, throughput e error rate, mencionou o RED Method e citou exemplos de outras situações. Contudo, poderia ter explicitado a relação dessas métricas com a experiência do usuário e mencionado métricas mais especí fi cas para outras aplicações, como índices de latência para sistemas de tempo real “ ” "Essa explicação não faz muito sentido, pois o que ela diz que não tem na resposta de fato está lá"

Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 A maioria das respostas com alto grau de similaridade (>0.7)

e abordaram temas ligeiramente diferentes, embora ambos os temas sejam
corretos @gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 A maioria das respostas com alto grau de similaridade (>0.7)

@gustavopinto ML4SE.substack.com Experimento 2: → Respostas Individuais Nota ChatGPT vs
Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Respostas Individuais ChatGPT versus Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Respostas Individuais ChatGPT versus Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Respostas Individuais ChatGPT versus Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Q1 Q2 Q4 Q5

1. Experts concordam com as correções 2. O ChatGPT identi
fi cou nuances que outras métricas não observam 3. O ChatGPT apresentou correções con fi áveis LLM4EDU: Take-aways [email protected] Twitter Web site Email

Large Language Models for Education: Grading Op...

Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT

Gustavo Pinto

More Decks by Gustavo Pinto

Other Decks in Education

Featured

Transcript

Gustavo Pinto @gustavopinto gustavopinto.org Grading Open-Ended Questions Using ChatGPT [email protected]

@gustavopinto ML4SE.substack.com Caramba, Não tenho tempo! Que legal, novo framework!

@gustavopinto ML4SE.substack.com handora.zup.com.br

@gustavopinto ML4SE.substack.com

@gustavopinto ML4SE.substack.com Que legal, Nova resposta!

@gustavopinto ML4SE.substack.com Caramba, Tem que corrigir!

@gustavopinto ML4SE.substack.com Primeira tentativa: Deep Learning Treinamos 8 modelos de

@gustavopinto ML4SE.substack.com Segunda tentativa: ChatGPT Correção de questões abertas via

@gustavopinto ML4SE.substack.com Utiliza aprendizado profundo para interpretar consultas Estado da

@gustavopinto ML4SE.substack.com Etapas do estudo 1. Design das provas 2.

@gustavopinto ML4SE.substack.com 1. Design das provas Caching Performance Q1. Explique

@gustavopinto ML4SE.substack.com 1. Design das provas Q1. Explique com suas

@gustavopinto ML4SE.substack.com 2. Coleta de respostas Respostas Especialistas Q1. Q2.

@gustavopinto ML4SE.substack.com 3. Correção das provas Eu preciso que você

@gustavopinto ML4SE.substack.com 3. Correção das provas Q1. Q2. Q3. Q4.

@gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

@gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

@gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

@gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

e abordaram temas ligeiramente diferentes, embora ambos os temas sejam

@gustavopinto ML4SE.substack.com Experimento 2: → Respostas Individuais Nota ChatGPT vs

1. Experts concordam com as correções 2. O ChatGPT identi