Programação Paralela em Arquiteturas Multi-Core/Aplicações Internet: diferenças entre revisões

Saltar para a navegação Saltar para a pesquisa
[edição não verificada][edição não verificada]
==== Arquitetura de um crawler paralelo ====
 
A figura [[Image: | Arquitetura geral de um crawler paralelo]] nos mostra a arquitetura geral de um crawler paralelo, que consiste de múltiplos processos, referidos por <math>C-proc</math>. Cada <math>C-proc<math/math> é responsável por executar uma tarefa básica de um crawler não paralelo. Ele coleta páginas da Web, armazena as páginas localmente, extrai todas as URLs que encontrar e segue os [[link]]s. Dependendo da forma com que as tarefas são divididas entre os <math>C-proc</math>, pode ser necessário a troca de dados entre os processos. A distribuição de tarefas entre os <math>C-proc</math> pode ser feita numa rede local (como uma [[LAN]]), ou em localizações geograficamente distantes (como uma [[WAN]]).
 
** Intra-site crawler: quando todos os processos rodam em uma mesma rede local e se comunicam em alta velocidade. Na figura anterior, isso pode ser observado no caso onde todos os <math>C-proc</math> rodam na rede local da parte de cima.
** Assinalamento Dinâmico: ocorre quando existe uma central de comando que divide a Web em partições pequenas, usando para isto alguma função pré-estabelecida, e dinamicamente assinala cada partição a um processo. Essas partições podem ser feitas em diferentes granularidades, o que afeta a comunicação entre os processos e a central de comando.
 
** Assinalamento Estático: ocorre quando a Web é particionada e assinalada a cada <math>C-proc</math> antes de começar a coleta. Neste caso, cada <math>C-proc</math> sabe qual <math>C-proc</math> é responsável por qual página, não precisando de uma central de comando para isto.
 
==== Conclusão ====
40

edições

Menu de navegação