Processamento de Dados Massivos/Projeto e implementação de aplicações Big Data/Agrupamento baseado em densidade: diferenças entre revisões

Saltar para a navegação Saltar para a pesquisa
[edição não verificada][edição não verificada]
O projeto descrito visa a implementação do algoritmo de agrupamento ''DBScan'' distribuído e com o propósito de tratar grandes volumes de dados.
 
Conforme mostrado na revisão bibliográfica, a maioria dos trabalhos existentes com a mesma proposta realizam o agrupamento de forma independentes entre os nós para depois realizarem a união e o tratamento da fronteira entre os grupos criados pelos múltiplos nós. A proposta desse trabalho é realizar o agrupamento dividindo-se os registros entre os nós, e agrupá-los utilizando comunicação para informar quais partições foram assimiladas a quais nós. Conforme mostrado na seção 3"Desenvolvimento", há duas possibilidades para o controle de eficiência e qualidade: a granularidade da divisão do espaço e a quantidade de vezes que cada registro é replicado. A principal ferramenta de implementação é o ''framework Apache Hadoop'' e ao final dessa etapa, a avaliação será realizada com uma grande base de dados de filmes.
 
Espera-se que ao final do processo o resultado seja uma aplicação escalável e eficiente para agrupar com qualidade grandes volumes de dados, além de publicações acadêmicas na área de ''big data''.
 
 
= Referências =

Menu de navegação