Bibliotecas Digitais/Banco de Dados da Biblioteca Digital
Mapeamento
[editar | editar código-fonte]Um mapeamento dos diversos livros, dispersos na Web, poderá ser criado na implementação da Biblioteca Digital. Alguns documentos, neste mapa, são muito importantes porque dão base para a produção de novos trabalhos. Concentrado este material, os internautas podem acessar o acervo digital e escolher seu livro preferido, por título ou autor, e poderão lê-lo quando quiserem. Tecnicamente, o banco de dados central com as informações das obras pode ser projetado através de um aplicativo ASP ou mesmo PHP, que é exatamente uma tecnologia desenvolvida para aplicações de organização de informações.
Existem alguns critérios na organização do banco de dados no processo de elaboração do acervo que podem ser levados em conta:
- Títulos de URLs efetivamente fixas.
- Títulos pagos ou gratuitos, mas de fontes reais e seguras.
- Títulos literários para leitura de entretenimento.
- Títulos que possam ser utilizados em sala de aula.
- Títulos técnicos que possam auxiliar na produção científica.
- Títulos técnicos que possam ajudar na aprendizagem da informática [tutoriais, por exemplo].
Tarefas na Elaboração do Acervo
[editar | editar código-fonte]- Levantamento na Web, através de pesquisas minuciosas, dos endereços ou caminhos fixos de obras ou levantamento do próprio acervo interno.
- Com o resultado dos processos de pesquisa e de parcerias com provedores de livros, proceder com a realimentação do mapa de eBooks através da catalogação e armazenamento dos dados.
- Manutenção de seções e subseções do acervo a partir dos dados obtidos.
- Disponibilização dos livros nas páginas da Biblioteca na Internet.
Digitalização de Conteúdo
[editar | editar código-fonte]Na implementação e na posterior manutenção do banco de dados de livros, os procedimentos contam com os processos de digitalização de obras. Neste momento, poderão ser consideradas propícias à digitalização as obras ainda não disponíveis na Web ou que se encontram em Domínio Público. Com o auxílio de scanners com capacidade de captura de imagens de alta resolução, e softwares de OCR, documentos e obras consideradas importantes poderão ser resgatados e estarão disponíveis para diversas pessoas através do acervo.
A seguir, descrevemos 10 etapas básicas que devem ser levadas em consideração na hora de digitalizar um documento.
- Preparação do Documento: A preparação do documento consiste em organizar pilhas e se antever a detalhes de corte, ordem, inclinação do documento, assim como sujeiras etc.
- Digitalização: Com o ADF [Alimentador Automático de Documento] em caso de documentos inteiros; ou na superfície do scanner, em caso de imagens separadas ou páginas avulsas. Se for realmente necessária a utilização do ADF, deve-se sempre acompanhar e verificar o trabalho no scanner e do software, durante o processo.
- Segmentação de Áreas na Página: Escolher áreas da página para processamento específico: zonas de texto, imagem e numérica. No software PageGenie, por exemplo, pode-se identificar zonas de texto, imagem e zonas numéricas. Isto pode ser feito no estágio Select.
- Aperfeiçoamento de Imagem: Corrigir manchas, eliminar pontos, definir limites. Imagens digitalizadas para fazer OCR, devem ser distintas de imagens capturadas para serem figuras e ilustrações.
- Processamento de OCR: No software de OCR atentar-se aos detalhes de fontes, dicionário etc. Após digitalizar as páginas, faz-se o processo de OCR com um número pequeno de lotes. Pode ser 20 páginas por vez.
- Controle de Qualidade: Editar e limpar a saídas de OCR. Se o documento estiver ilegível ou invertido, deverá ser feita uma nova digitalização.
- Alteração de Trabalho: Modificar ordem em que os documentos são processados: par e ímpar; ou trabalho com texto e imagens. Como alguns ADF´s não trabalham capturando duas páginas ao mesmo tempo [frente e verso], quando terminar a digitalização de páginas ímpares, basta que se vire o conjunto e recomece a digitalização.
- Gerenciamento de Lotes: Controlar pilhas de documentos em processo: papel e eletrônico. Cria-se uma pasta com o nome do livro, para armazenar os arquivos digitalizados lá dentro.
- Monitoração do Trabalho: Controlar documentos em cada etapa. A visão de monitoramento de cada etapa do processo, deve estar ligada à visão geral de todo o processo.
- Status de Trabalho: Visão geral de todos os trabalhos no sistema. Em síntese, o manipulador deve controlar e gerenciar cada passo de seu trabalho, fazendo uma avaliação no final para aperfeiçoá-lo.
Considerações Gerais Sobre a Digitalização
[editar | editar código-fonte]Timing
[editar | editar código-fonte]Leva-se, em média, uma hora para compreender uma configuração nova para um livro a ser digitalizado. A digitalização é simples, uma vez que se tenha o alimentador automático de documentos; dela vai depender um bom reconhecimento de caracteres pelo aplicativo. Estima-se 1 hora para cada 80 páginas. Isto em um processo caseiro e não industrial.
O reconhecimento não é o último passo na digitalização, mas requer esforço de concentração. Estima-se uma hora para cada 30 páginas reconhecidas. No processo geral, seriam 10% do tempo para configuração, 30% para digitalização e 50% do tempo despendido para OCR, se o livro tiver 100 páginas. A revisão e rediagramação não estão previstas neste processo.
Índice de Erros/Acertos no OCR
[editar | editar código-fonte]O índice de acertos no reconhecimento de caracteres num aplicativo como o PageGenie é de 98,70%. Significa que de cada 100 palavras, cinco ou mais, não serão reconhecido adequadamente pelo software.
Os erros mais comuns no reconhecimento são: trocar o ~ pelo ^ ou pelo ´; trocar í por t ou f; trocar m por rn; trocar o O pelo zero; o ó pelo 6; e, às vezes, os mesmos exemplos ao contrário.
Os erros nos artigos “o” e no adjetivo “se”, são os que mais aparecem durante o processo de OCR. Para otimizar a correção e minimizar erros, basta acrescentá-los no dicionário e pedir para o aplicativo corrigir para todo o documento. Isto vale para as demais palavras que aparecerem não conhecidas pelo dicionário, no documento.