diretórios de acordos com suas classe 6. Todos os arquivos de um diretório, ou seja pertencentes a uma classe judicial, foram concatenados em somente um arquivo, que assim passava a conter o texto correspondente a todas as petições daquela classe. 7. Utilizada a biblioteca NLTK para fazer a segmentação de sentenças do texto do arquivo de cada classe judicial. 8. O texto das petições foram filtrados e foram removidas sentenças que contivessem menos que 10 palavras, pois dificilmente teriam um valor semântico capaz de identificar a classe de um processo, e também as sentenças maiores que 112 palavras pois correspondiam a de 0,1% do dataset