Método Semissupervisionado de Rotulação e Classificação Utilizando Agrupamento por Sementes e Classificadores

Mestrando: Bruno Vicente Alves de Lima

Na tarefa de classificação utilizando algoritmos de aprendizado de máquina, considera-se a existência de uma base de dados chamada conjunto de treinamento. Esse conjunto possui exemplos que são rotulados(pré-classificados) e utilizados no treinamento do classificador. Deve ter um total de exemplos significativo e equilibrado para que, após o treinamento, o classificador tenha um desempenho satisfatório. Porém, na maioria dos casos reais, obter esse conjunto de treinamento com a quantidade de exemplos suficientes para induzir um classificador no treinamento pode ser oneroso, pois é necessário que seja realizada uma rotulação dos dados por um especialista no problema em questão. Exemplos não-rotulados são mais fáceis de serem coletados em comparação aos que possuem rótulos. A literatura mostra o interesse da comunidade científica em uma nova abordagem de aprendizado chamada de semissupervisionada. Este tipo de aprendizado trabalha em um cenário em que existe um conjunto de dados rotulados, insuficiente para treinar um classificador, juntamente com um outro conjunto com dados não-rotulados, também, disponível no treinamento. O objetivo do trabalho é propor um método que visa rotular dados a partir de um pequeno conjunto rotulado. Esse método combina um classificador e um agrupador para realizar a tarefa de classificação de forma simples em relação à outros métodos encontrados na literatura. Foram realizados experimentos utilizando 5 bases de dados e os resultados comparados com os algoritmos co-training e k-meanski, que são outros algoritmos semissupervisionados que possui o mesmo propósito.