Em 2022, quando a OpenAI disponibilizou o ChatGPT, os estudantes do Brasil tinham acabado de fazer o ENEM. Eu estava bastante impressionado com a capacidade de geração de textos do GPT 3 em múltiplas línguas e comecei a me perguntar como ele se sairia no tema do ENEM daquele ano, então gerei uma redação.
O texto foi produzido a partir deste prompt simples:
Escreva uma redação em português com o tema “Desafios para a valorização de comunidades e povos tradicionais no Brasil” do ENEM
À primeira vista, o resultado me impressionou, mas eu não sou um avaliador especialista. Para ter uma opinião mais embasada, enviei o texto por whatsapp para o Leonardo Maçan, que além de se especializar em linguística, UX writing e Produtos digitais, já tinha experiência prévia em correção de redações.
A opinião dele não foi tão boa como a minha. Em resumo, a redação apresentava
- Argumentos “mecânicos” e sem profundidade
- Falta de Repertório sócio-cultural
- Sem exemplos claros
- Parágrafos fora da estrutura esperada
- Conclusão rasa e sem propostas de solução para as questões mencionadas no próprio texto.
Mas estava bem escrita, apesar de um erro ortográfico. A impressão é que tiraria algo ao redor de 500 dos 1000 pontos possíveis.
Segundo as Sinopses Estatísticas do INEP, as notas de redação do ENEM 2022 tiveram as seguintes características de distribuição:
Total | Média | Mediana | Moda | Mínimo | Máximo | Desvio Padrão |
2363615 | 652.45 | 640.00 | 600.00 | 40.00 | 1,000.00 | 159.19 |
Nosso “aluno digital” em resumo se posicionaria abaixo da nota que divide o universo de redação em dois,, abaixo da nota mais comum e abaixo da nota média por praticamente um desvio padrão. Para o avaliador, uma redação média fica na faixa 500, uma boa redação nas faixas 600 e 700, a ótima em 800 e a “redação perfeita” fica na faixa entre os 900 e 1000 pontos. Apenas 60 redações obtiveram nota máxima em 2022.
Mas após 2 anos de evolução do ChatGPT e novos modelos concorrentes privados e abertos, será que eles se sairiam melhor? Resolvi refazer a experiência adicionando mais modelos em um teste cego, sem revelar ao avaliador se eram produzidos por I.A. ou não e nem quais I.A.s teriam produzido os textos. Em 100% dos casos o avaliador foi capaz de identificar corretamente os textos produzidos por I.A. Foram submetidos para a avaliação estruturada o texto de 2022 do chat gpt, uma nova redação feita pelo GPT4, uma do llama3.2/MetaAI, uma do Claude/Antrhopic.
Redação | Nota |
Aluno 2 | 640 |
Aluno 1 / ChatGPT 4 | 580 |
Aluno 3 | 540 |
Aluno 0 / ChatGPT 3 | 500 |
Dois anos de evolução ainda não foram capazes de alterar a capacidade dos modelos mais populares de LLM em produzir uma redação significantemente melhor segundo os critérios do ENEM, apesar da melhora de 16% da nota do ChatGPT. Os problemas encontrados foram:
- Não tem repertório sócio-cultural.
- Não desenvolve argumentação.
- Não apresentam propostas de intervenção concreta.
- Não apresentam referências fatuais ou históricas.
Os mesmos problemas, em essência. A contrapartida e vantagem dos modelos é o domínio da língua formal e da gramática, que é a maior dificuldade das redações humanas hoje em dia. Os textos automáticos abusam de ideias duplas nos predicados e enumerações, “isso e aquilo”, e tendem a escrever conclusões a cada parágrafo, ao invés de reservá-las para o parágrafo final, o que sugere características intrínsicas aos LLMs de
- Capturarem a estrutura gramatical da linguagem.
- Produzirem textos semanticamente consistentes.
- Não produzirem uma estrutura global de redação, uma vez que os produzem palavra a palavra.
- Reproduzirem estruturas vistas com frequência no treinamento, como as enumerações.
Claro que esses tópicos não são conclusões e isso não é uma pesquisa científica, mas são evidências empíricas interessantes.
Mas afinal, quem foi o LLM que se saiu melhor? O único LLM a conseguir uma redação na faixa “boa” e o outro “novo entrante” podem ser vistos junto com todas as redações e avaliações comentadas neste documento no google docs.
Comente de volta!