Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT

Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT

Gustavo Pinto

August 25, 2023
Tweet

More Decks by Gustavo Pinto

Other Decks in Education

Transcript

  1. @gustavopinto ML4SE.substack.com Segunda tentativa: ChatGPT Correção de questões abertas via

    ChatGPT Qual a qualidade da correção fornecida pelo ChatGPT?
  2. @gustavopinto ML4SE.substack.com Utiliza aprendizado profundo para interpretar consultas Estado da

    Arte dos modelos linguísticos Treinado em amplo corpus linguístico heterogêneo Utilizado em diversas áreas do conhecimento
  3. @gustavopinto ML4SE.substack.com 1. Design das provas Caching Performance Q1. Explique

    com suas palavras o que você entende sobre caching de aplicações REST? (Fácil) Q2. Explique brevemente o funcionamento dos dois tipos de caching. (Médio) Q3. Explique o invalidação de cache em aplicações REST e apresente uma forma de resolve-lo. (Difícil) Q1. Explique o conceito de teste de carga e estresse? (Fácil) Q2. Quais são as principais métricas utilizadas para avaliar o desempenho de uma aplicação durante um teste de carga? (Médio) Q3. Quais são as melhores práticas para realizar testes de carga em aplicações que expõem APIs REST? (Difícil)
  4. @gustavopinto ML4SE.substack.com 1. Design das provas Q1. Explique com suas

    palavras o que você entende sobre caching de aplicações REST? Caching é uma técnica que permite armazenar dados que são acessados frequentemente em memória, a fi m de reduzir o custo de complexidade da consulta dos mesmos. Hoje em dia existem diversas formas de aplicar caching em REST APIs, iniciando ao lado do servidor através de técnicas de cache local e distribuído. E também é possível habilitar o caching}ao lado cliente, onde através do uso de cabeçalhos do protocolo HTTP, é de fi nido politicas que regem o comportamento do caching, como por exemplo, o uso de versões, tempo de expiração e também de fi nir quais clientes podem armazenar os dados, no caso referindo ao navegador do usuário fi nal e/ou CDNs. “ ” Zupper Expert
  5. @gustavopinto ML4SE.substack.com 2. Coleta de respostas Respostas Especialistas Q1. Q2.

    Q3. Q4. Q5. Q6. Respostas Zuppers Respostas ChatGPT Q1. Q2. Q3. Q4. Q5. Q6. Q1. Q2. Q3. Q4. Q5. Q6. N = 44
  6. @gustavopinto ML4SE.substack.com 3. Correção das provas Eu preciso que você

    realize correções de provas usando a régua de correção mais alta que você puder. Considere a seguinte questão e a seguinte resposta de um especialista: Q: Explique com suas palavras o que você entende sobre caching de aplicações REST? R especialista: Agora, considere a resposta de um aluno, fornecida abaixo. R aluno: Qual nota você daria para a resposta do aluno, levando em consideração a resposta do especialista, numa escala de 0 a 10? Devolva a resposta em um formato JSON, com uma variável 'nota', com a sua nota, e uma outra variável 'explicacao' com a explicação para esta nota. Sua explicação deve ter ao menos 20 palavras. Na explicação, identi fi que lacunas de conhecimento e explique de forma que minimize essa lacuna, utilizando exemplos reais. Caso não seja fornecida uma reposta, retorne 'Nenhuma resposta foi informada', e de nota zero. Modelo: GPT-4, Temperatura: 0.6
  7. @gustavopinto ML4SE.substack.com 3. Correção das provas Q1. Q2. Q3. Q4.

    Q5. Q6. Respostas Questões Dataset Experimento 1 Experimento 2 Expert Aluno Expert Aluno Q1 Q2 Q3 Q4 Q5 Q6 Experimentos
  8. @gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

    Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046
  9. @gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

    Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 O aluno explicou bem o cache do lado do servidor, incluindo estratégias monolíticas e distribuídas, mas não mencionou o cache do lado do cliente. No cache do lado do cliente, os dados são armazena “ ” "O foi cirúrgico, e percebeu que minha resposta estava incompleta. Eu acredito que a nota foi mais alta do que deveria. Eu mesmo me daria uns 5.”
  10. @gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

    Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 A resposta do aluno abordou corretamente as métricas response time, throughput e error rate, mencionou o RED Method e citou exemplos de outras situações. Contudo, poderia ter explicitado a relação dessas métricas com a experiência do usuário e mencionado métricas mais especí fi cas para outras aplicações, como índices de latência para sistemas de tempo real “ ” "Essa explicação não faz muito sentido, pois o que ela diz que não tem na resposta de fato está lá"
  11. @gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim

    Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 A maioria das respostas com alto grau de similaridade (>0.7)
  12. e abordaram temas ligeiramente diferentes, embora ambos os temas sejam

    corretos @gustavopinto ML4SE.substack.com Experimento 1: → , Experimento 1 Cos Sim Q1 9 8 0.8410 Q2 9 7 0.7338 Q3 8.5 7 0.7492 Q4 9 8.5 0.8546 Q5 9 9 0.5429 Q6 9 8.5 0.8046 A maioria das respostas com alto grau de similaridade (>0.7)
  13. @gustavopinto ML4SE.substack.com Experimento 2: → Respostas Individuais Nota ChatGPT vs

    Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Respostas Individuais ChatGPT versus Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Respostas Individuais ChatGPT versus Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Respostas Individuais ChatGPT versus Similaridade de Coseno 0,00 0,25 0,50 0,75 1,00 Cos sim Nota Normalizada Nota ChatGPT versus Similaridade de Coseno Q1 Q2 Q4 Q5
  14. 1. Experts concordam com as correções 2. O ChatGPT identi

    fi cou nuances que outras métricas não observam 3. O ChatGPT apresentou correções con fi áveis LLM4EDU: Take-aways [email protected] Twitter Web site Email