Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT

Large Language Models for Education: Grading Open-Ended Questions Using ChatGPT

Gustavo Pinto

August 25, 2023
Tweet

More Decks by Gustavo Pinto

Other Decks in Education

Transcript

  1. Gustavo Pinto
    @gustavopinto
    gustavopinto.org
    Grading Open-Ended Questions
    Using ChatGPT
    [email protected]
    ML4SE.substack.com
    Large Language Models for Education:

    View full-size slide

  2. @gustavopinto ML4SE.substack.com
    Caramba,


    Não tenho tempo!
    Que legal,


    novo framework!

    View full-size slide

  3. @gustavopinto ML4SE.substack.com
    handora.zup.com.br

    View full-size slide

  4. @gustavopinto ML4SE.substack.com

    View full-size slide

  5. @gustavopinto ML4SE.substack.com
    Que legal,


    Nova resposta!

    View full-size slide

  6. @gustavopinto ML4SE.substack.com
    Caramba,


    Tem que corrigir!

    View full-size slide

  7. @gustavopinto ML4SE.substack.com
    Primeira tentativa: Deep Learning
    Treinamos 8 modelos
    de DL para avaliar
    bons códigos

    View full-size slide

  8. @gustavopinto ML4SE.substack.com
    Segunda tentativa: ChatGPT
    Correção de
    questões abertas via
    ChatGPT
    Qual a qualidade da
    correção fornecida
    pelo ChatGPT?

    View full-size slide

  9. @gustavopinto ML4SE.substack.com
    Utiliza aprendizado
    profundo para
    interpretar consultas
    Estado da Arte dos
    modelos linguísticos
    Treinado em amplo
    corpus linguístico
    heterogêneo
    Utilizado em diversas
    áreas do
    conhecimento

    View full-size slide

  10. @gustavopinto ML4SE.substack.com
    Etapas do estudo
    1. Design das provas
    2. Coleta de respostas
    3. Correção das provas

    View full-size slide

  11. @gustavopinto ML4SE.substack.com
    1. Design das provas
    Caching Performance
    Q1. Explique com suas palavras
    o que você entende sobre
    caching de aplicações REST? (Fácil)


    Q2. Explique brevemente o
    funcionamento dos dois tipos
    de caching. (Médio)


    Q3. Explique o invalidação de
    cache em aplicações REST e
    apresente uma forma de
    resolve-lo. (Difícil)
    Q1. Explique o conceito de teste
    de carga e estresse? (Fácil)


    Q2. Quais são as principais
    métricas utilizadas para avaliar
    o desempenho de uma aplicação
    durante um teste de carga? (Médio)


    Q3. Quais são as melhores
    práticas para realizar testes de
    carga em aplicações que
    expõem APIs REST? (Difícil)

    View full-size slide

  12. @gustavopinto ML4SE.substack.com
    1. Design das provas
    Q1. Explique com suas palavras o que você entende sobre caching de
    aplicações REST?
    Caching é uma técnica que permite armazenar
    dados que são acessados frequentemente
    em memória, a
    fi
    m de reduzir o custo de
    complexidade da consulta dos mesmos. Hoje em dia existem
    diversas formas de aplicar caching em REST APIs, iniciando ao
    lado do servidor através de técnicas de cache local e
    distribuído. E também é possível habilitar o caching}ao lado
    cliente, onde através do uso de cabeçalhos do protocolo HTTP,
    é de
    fi
    nido politicas que regem o comportamento do caching,
    como por exemplo, o uso de versões, tempo de expiração e
    também de
    fi
    nir quais clientes podem armazenar os dados, no
    caso referindo ao navegador do usuário
    fi
    nal e/ou CDNs.


    Zupper Expert

    View full-size slide

  13. @gustavopinto ML4SE.substack.com
    2. Coleta de respostas
    Respostas
    Especialistas
    Q1.


    Q2.


    Q3.
    Q4.


    Q5.


    Q6.
    Respostas


    Zuppers
    Respostas


    ChatGPT
    Q1.


    Q2.


    Q3.
    Q4.


    Q5.


    Q6.
    Q1.


    Q2.


    Q3.
    Q4.


    Q5.


    Q6.
    N = 44

    View full-size slide

  14. @gustavopinto ML4SE.substack.com
    3. Correção das provas
    Eu preciso que você realize correções de provas usando a régua de correção mais alta que você
    puder.


    Considere a seguinte questão e a seguinte resposta de um especialista:


    Q: Explique com suas palavras o que você entende sobre caching de aplicações REST?


    R especialista:


    Agora, considere a resposta de um aluno, fornecida abaixo.


    R aluno:


    Qual nota você daria para a resposta do aluno, levando em consideração a resposta do
    especialista, numa escala de 0 a 10?


    Devolva a resposta em um formato JSON, com uma variável 'nota', com a sua nota, e uma outra
    variável 'explicacao' com a explicação para esta nota.


    Sua explicação deve ter ao menos 20 palavras. Na explicação, identi
    fi
    que lacunas de
    conhecimento e explique de forma que minimize essa lacuna, utilizando exemplos reais.


    Caso não seja fornecida uma reposta, retorne 'Nenhuma resposta foi informada', e de nota zero.
    Modelo: GPT-4, Temperatura: 0.6

    View full-size slide

  15. @gustavopinto ML4SE.substack.com
    3. Correção das provas
    Q1.


    Q2.


    Q3.
    Q4.


    Q5.


    Q6.
    Respostas
    Questões
    Dataset
    Experimento 1 Experimento 2
    Expert Aluno Expert Aluno
    Q1
    Q2
    Q3
    Q4
    Q5
    Q6
    Experimentos

    View full-size slide

  16. @gustavopinto ML4SE.substack.com
    Experimento 1: → ,
    Experimento 1
    Cos Sim
    Q1 9 8 0.8410
    Q2 9 7 0.7338
    Q3 8.5 7 0.7492
    Q4 9 8.5 0.8546
    Q5 9 9 0.5429
    Q6 9 8.5 0.8046

    View full-size slide

  17. @gustavopinto ML4SE.substack.com
    Experimento 1: → ,
    Experimento 1
    Cos Sim
    Q1 9 8 0.8410
    Q2 9 7 0.7338
    Q3 8.5 7 0.7492
    Q4 9 8.5 0.8546
    Q5 9 9 0.5429
    Q6 9 8.5 0.8046
    O aluno explicou bem
    o cache do lado
    do servidor, incluindo estratégias
    monolíticas e distribuídas, mas
    não mencionou o cache do lado
    do cliente. No cache do lado do
    cliente, os dados são armazena


    "O foi cirúrgico, e percebeu que minha
    resposta estava incompleta. Eu acredito
    que a nota foi mais alta do que deveria.
    Eu mesmo me daria uns 5.”

    View full-size slide

  18. @gustavopinto ML4SE.substack.com
    Experimento 1: → ,
    Experimento 1
    Cos Sim
    Q1 9 8 0.8410
    Q2 9 7 0.7338
    Q3 8.5 7 0.7492
    Q4 9 8.5 0.8546
    Q5 9 9 0.5429
    Q6 9 8.5 0.8046
    A resposta do aluno
    abordou
    corretamente as
    métricas response time, throughput e
    error rate, mencionou o RED Method e citou
    exemplos de outras situações. Contudo,
    poderia ter explicitado a relação dessas
    métricas com a experiência do usuário e
    mencionado métricas mais especí
    fi
    cas
    para outras aplicações, como índices de
    latência para sistemas de tempo real


    "Essa explicação não faz muito
    sentido, pois o que ela diz que
    não tem na resposta de fato
    está lá"

    View full-size slide

  19. @gustavopinto ML4SE.substack.com
    Experimento 1: → ,
    Experimento 1
    Cos Sim
    Q1 9 8 0.8410
    Q2 9 7 0.7338
    Q3 8.5 7 0.7492
    Q4 9 8.5 0.8546
    Q5 9 9 0.5429
    Q6 9 8.5 0.8046
    A maioria das respostas com alto
    grau de similaridade (>0.7)

    View full-size slide

  20. e abordaram temas
    ligeiramente diferentes, embora
    ambos os temas sejam corretos
    @gustavopinto ML4SE.substack.com
    Experimento 1: → ,
    Experimento 1
    Cos Sim
    Q1 9 8 0.8410
    Q2 9 7 0.7338
    Q3 8.5 7 0.7492
    Q4 9 8.5 0.8546
    Q5 9 9 0.5429
    Q6 9 8.5 0.8046
    A maioria das respostas com alto
    grau de similaridade (>0.7)

    View full-size slide

  21. @gustavopinto ML4SE.substack.com
    Experimento 2: →
    Respostas Individuais
    Nota ChatGPT vs Similaridade de Coseno
    0,00
    0,25
    0,50
    0,75
    1,00
    Cos sim Nota Normalizada
    Nota ChatGPT versus Similaridade de Coseno
    Respostas Individuais
    ChatGPT versus Similaridade de Coseno
    0,00
    0,25
    0,50
    0,75
    1,00
    Cos sim Nota Normalizada
    Nota ChatGPT versus Similaridade de Coseno
    Respostas Individuais
    ChatGPT versus Similaridade de Coseno
    0,00
    0,25
    0,50
    0,75
    1,00
    Cos sim Nota Normalizada
    Nota ChatGPT versus Similaridade de Coseno
    Respostas Individuais
    ChatGPT versus Similaridade de Coseno
    0,00
    0,25
    0,50
    0,75
    1,00
    Cos sim Nota Normalizada
    Nota ChatGPT versus Similaridade de Coseno
    Q1 Q2
    Q4 Q5

    View full-size slide

  22. 1. Experts concordam com as correções


    2. O ChatGPT identi
    fi
    cou nuances que
    outras métricas não observam


    3. O ChatGPT apresentou correções
    con
    fi
    áveis
    LLM4EDU: Take-aways
    [email protected]
    Twitter
    Web site
    Email

    View full-size slide