Redações do ENEM com I.A.

Em 2022, quando a OpenAI disponibilizou o ChatGPT, os estudantes do Brasil tinham acabado de fazer o ENEM. Eu estava bastante impressionado com a capacidade de geração de textos do GPT 3 em múltiplas línguas e comecei a me perguntar como ele se sairia no tema do ENEM daquele ano, então gerei uma redação.

O texto foi produzido a partir deste prompt simples:

Escreva uma redação em português com o tema “Desafios para a valorização de comunidades e povos tradicionais no Brasil” do ENEM

À primeira vista, o resultado me impressionou, mas eu não sou um avaliador especialista. Para ter uma opinião mais embasada, enviei o texto por whatsapp para o Leonardo Maçan, que além de se especializar em linguística, UX writing e Produtos digitais, já tinha experiência prévia em correção de redações.

A opinião dele não foi tão boa como a minha. Em resumo, a redação apresentava

  • Argumentos “mecânicos” e sem profundidade
  • Falta de Repertório sócio-cultural
  • Sem exemplos claros
  • Parágrafos fora da estrutura esperada
  • Conclusão rasa e sem propostas de solução para as questões mencionadas no próprio texto.

Mas estava bem escrita, apesar de um erro ortográfico. A impressão é que tiraria algo ao redor de 500 dos 1000 pontos possíveis.

Segundo as Sinopses Estatísticas do INEP, as notas de redação do ENEM 2022 tiveram as seguintes características de distribuição:

TotalMédiaMedianaModaMínimoMáximoDesvio Padrão
2363615652.45640.00600.0040.001,000.00159.19
Fonte: INEP

Nosso “aluno digital” em resumo se posicionaria abaixo da nota que divide o universo de redação em dois,, abaixo da nota mais comum e abaixo da nota média por praticamente um desvio padrão. Para o avaliador, uma redação média fica na faixa 500, uma boa redação nas faixas 600 e 700, a ótima em 800 e a “redação perfeita” fica na faixa entre os 900 e 1000 pontos. Apenas 60 redações obtiveram nota máxima em 2022.

Mas após 2 anos de evolução do ChatGPT e novos modelos concorrentes privados e abertos, será que eles se sairiam melhor? Resolvi refazer a experiência adicionando mais modelos em um teste cego, sem revelar ao avaliador se eram produzidos por I.A. ou não e nem quais I.A.s teriam produzido os textos. Em 100% dos casos o avaliador foi capaz de identificar corretamente os textos produzidos por I.A. Foram submetidos para a avaliação estruturada o texto de 2022 do chat gpt, uma nova redação feita pelo GPT4, uma do llama3.2/MetaAI, uma do Claude/Antrhopic.

RedaçãoNota
Aluno 2640
Aluno 1 / ChatGPT 4580
Aluno 3 540
Aluno 0 / ChatGPT 3500
Avaliação Metodológica das Redações escritas por modelos de linguagem

Dois anos de evolução ainda não foram capazes de alterar a capacidade dos modelos mais populares de LLM em produzir uma redação significantemente melhor segundo os critérios do ENEM, apesar da melhora de 16% da nota do ChatGPT. Os problemas encontrados foram:

  • Não tem repertório sócio-cultural.
  • Não desenvolve argumentação.
  • Não apresentam propostas de intervenção concreta.
  • Não apresentam referências fatuais ou históricas.

Os mesmos problemas, em essência. A contrapartida e vantagem dos modelos é o domínio da língua formal e da gramática, que é a maior dificuldade das redações humanas hoje em dia. Os textos automáticos abusam de ideias duplas nos predicados e enumerações, “isso e aquilo”, e tendem a escrever conclusões a cada parágrafo, ao invés de reservá-las para o parágrafo final, o que sugere características intrínsicas aos LLMs de

  • Capturarem a estrutura gramatical da linguagem.
  • Produzirem textos semanticamente consistentes.
  • Não produzirem uma estrutura global de redação, uma vez que os produzem palavra a palavra.
  • Reproduzirem estruturas vistas com frequência no treinamento, como as enumerações.

Claro que esses tópicos não são conclusões e isso não é uma pesquisa científica, mas são evidências empíricas interessantes.

Mas afinal, quem foi o LLM que se saiu melhor? O único LLM a conseguir uma redação na faixa “boa” e o outro “novo entrante” podem ser vistos junto com todas as redações e avaliações comentadas neste documento no google docs.


Publicado

em

por

Comentários

Comente de volta!