O artigo intitulado “eMailMe: A Method to Build Datasets of Corporate Emails in Portuguese“, de Akira A. de Moura Galvão Uematsu e Anarosa A. F. Brandão, apresenta uma metodologia para criar conjuntos de dados de e-mails corporativos em português. Esses conjuntos de dados são essenciais para o desenvolvimento e aprimoramento de sistemas de processamento de linguagem natural (PLN), que permitem, por exemplo, a filtragem de spam, análise de sentimentos e assistentes virtuais mais eficientes.
A coleta de e-mails corporativos enfrenta desafios significativos devido a questões de privacidade e confidencialidade. Para contornar essas dificuldades, os autores propõem a utilização de e-mails gerados artificialmente que simulam as características dos e-mails reais. Essa abordagem garante a preservação da privacidade, ao mesmo tempo em que fornece dados relevantes para treinamento e avaliação de modelos de PLN.
A metodologia para a construção do conjunto de dados começou com a definição de um tamanho mínimo de amostra que garantisse a validação estatística dos modelos de aquisição de conhecimento. Além disso, para evitar viés na sensibilidade desses modelos ao reconhecer dados rotulados, foi estabelecido que a amostra conteria quantidades iguais de cada tipo de rótulo. Em seguida, foi necessário garantir que a estrutura dos textos refletisse o ambiente corporativo, diferenciando-se de textos encontrados em blogs ou relatórios, que apresentam estilos distintos de escrita.
Após essa etapa, definiu-se que os textos do conjunto de dados seriam compostos por e-mails escritos por profissionais em sua rotina de trabalho. Além disso, foi incluída intencionalmente a presença de alguns elementos gramaticais para posterior identificação no processo de aquisição de conhecimento. Por fim, buscou-se garantir diversidade na escrita e na experiência profissional dos autores, sem privilegiar determinados temas. Para isso, a amostra calculada foi distribuída igualmente entre as pessoas disponíveis durante a elaboração dos e-mails. A figura a seguir ilustra esse processo.
5W1H é uma abordagem utilizada para estruturação de informações baseada em seis perguntas fundamentais: What (O quê?), Who (Quem?), Where (Onde?), When (Quando?), Why (Por quê?) e How (Como?), ajudando na análise, planejamento e resolução de problemas. A extração de conhecimento tácito (não é expresso diretamente, mas que é entendido ou subentendido) foi baseada na abordagem 5W1H, sendo preferível que as frases contivessem esses elementos gramaticalmente, embora nem sempre todos estivessem presentes. Em e-mails corporativos, há geralmente uma ação relatada (“o quê”), sendo este o único elemento obrigatório. Os demais elementos são complementos que variam conforme o contexto, podendo estar ausentes dependendo do tipo de informação transmitida. Além disso, explicações podem ocorrer sem seguir essa estrutura, como no envio de documentos que, por si só, fornecem informações. Assim, não há restrições absolutas quanto à presença de todos os componentes.
O conjunto de dados resultante deste estudo consiste em 1660 textos simulados de e-mails corporativos, rotulados quanto à presença ou ausência de conhecimento tácito embutido. Esses e-mails foram elaborados com base na abordagem 5W1H para validar um processo de extração de conhecimento tácito, mas também podem ser utilizados para treinar redes neurais ou testar algoritmos de mineração de texto. O diferencial deste dataset é a sua correção gramatical em português brasileiro, assegurada por revisões duplas e pela participação de um professor de gramática. Até onde se sabe, este é o primeiro conjunto de dados do tipo, oferecendo uma base estruturada para estudos futuros na área.