Resumo
De acordo com a Constituição Federal (art. 129), os Ministérios Públicos (MPs) têm como funções a promoção de ações penais públicas, zelar pelo respeito entre os Poderes Públicos, exercer controle externo da atividade policial, por meio de pareceres públicos. O sistema de busca de pareceres do Ministério Público de Santa Catarina (MPSC) possibilita que o cidadão acesse os pareceres através do número do processo, de modo que o público em geral, i.e., pessoas que não sejam técnicas da área ou estejam envolvidas em algum processo, têm dificuldade em acessar informações de seu interesse. Como primeiro passo para otimizar a recuperação de informação, foi proposta a identificação de tópicos dentro de assuntos, usando topic modeling. Técnicas de topic modeling auxiliam na recuperação de informação quando não se sabe como procurar a informação que se procura dentro da coleção, ou quando não se sabe a informação explicitamente. O algoritmo utilizado para a modelagem foi o LDA, Latent Dirichlet Allocation, o qual é um modelo probabilístico generativo. Neste artigo, foi proposto um estudo de caso de classificação de pareceres com uso de tópicos. Primeiramente foi realizada a extração de conteúdos dos arquivos PDF dos processos. Com os conteúdos e metadados extraídos foi realizado o pré-processamento dos arquivos, que inclui: (i) agrupamento dos documentos; (ii) tokenização por palavras, (iii) filtragem palavras mais relevantes, (iv) conversão de todo texto para letras minúsculas e (v) RSLP stemming (Removedor de Sufixos da Língua Portuguesa). Com os documentos pré-processados, foi realizada a modelagem usando o algoritmo LDA para topic modeling. Com a aplicação da metodologia apresentada foram encontrados quinze tópicos (ex: compras online, educação, aumento de preços, danos morais e materiais, ajustamento de conduta) relacionados ao assunto de práticas abusivas dos processos judiciais, melhorando a identificação de processos similares sem que precise do número do processo para acessá-lo.
Autores
Rodrigo Gabriel de Miranda, Luana da Silva, Ingrid Knochenhauer de Souza e Vinícius M. de Sousa
Evento
II Simpósio Internacional Network Science