SQL/Dados Estruturados, Semi-Estruturados e Não Estruturados

Entender a diferença entre eles pode significar o bom andamento do seu projeto de gestão de documentos e informações. A tecnologia existente hoje é completamente confiável, mas os softwares e plataformas apenas ajudam a organizar. Tornar o projeto viável depende de conhecer conceitos e a própria cultura do ambiente corporativo. De acordo com estudos, 80% do conteúdo produzido em uma empresa normal é em formato não estruturado. Mas o que isso significa e qual a diferença para um estruturado.

Estruturados

São dados que contém uma organização para serem recuperados. É como se fossem etiquetas, linhas e colunas que identificam diversos pontos sobre aquela informação e tornam o trabalho da tecnologia bem simplificado. A maioria das empresas trabalha com eles há décadas. Embora não sejam a maior fatia do conteúdo produzido, eles são o que existe ou existia de melhor para tirar conclusões e fazer processos fluírem.

Há uma discussão sobre a validade desses conceitos já que dados não estruturados possuem alguma estruturação própria. Na realidade, essa separação ocorre porque a tecnologia existente é que enxerga assim. Para nós, tudo é informação e é relevante ou não. Quem sabe um dia esses termos não acabam sendo substituídos por outros ou apenas virem informação.

Esta organização é geralmente feita por colunas e linhas (parecidos com as planilhas do Excel), mas pode variar de acordo com a fonte de dados. Alguns exemplos de dados estruturados:

Planilhas eletrônicas (Excel)

Bancos de dados
Arquivos XML
Arquivos CSV

Não estruturados

Os bancos de dados em geral não contêm todas as informações possíveis sobre algo lá guardado. Um dado é uma forma organizada de informação, mas ela ocorre desde que campos específicos sejam preenchidos para que a recuperação deles se dê de forma automatizada. Mas documentos de texto, por exemplo, não são enxergados em toda sua amplitude. Seria inviável classificar cada palavra do texto e relacioná-las com contextos, momentos, pessoas, citações, etc. Isso é pior para vídeos e áudios. Em redes sociais, quando as pessoas colocam suas emoções no que escrevem, tudo fica ainda mais impossível. Imagine que você entrou em uma sala de um colecionador. O acervo está etiquetado e organizado. Mas não se pode ter uma ideia completa do significado daquilo tudo de uma forma automática.

Quando não conseguimos identificar uma organização clara dos dados lá armazenados, concluímos que esta é um dado não estruturado. Como identificar as todas as palavras de um documento texto (bloco de notas, Word, emails, etc) e relacioná-las um contexto? É praticamente impossível, não é? Quando nos deparamos com esta situação desorganizada estamos lidando dados não estruturados.

Semi-Estruturados

É um meio termo no qual constam dados que não são mantidos em SGBDs, mas em Data Lakes, conceito de armazenamento que veremos mais para a frente.

São dados web que possuem organização bastante heterogênea e distinção nebulosa entre estrutura e valor, o que dificulta sua consulta e classificação. De forma geral não são estritamente classificados.

Abaixo alguns exemplos:

Arquivos de Vídeo
Arquivos de Áudio
Imagens
Documento de Texto
Informações de Redes Sociais
E-mails

Extrair informações de dados estruturados é relativamente simples, pois eles já indicam o contexto que pertencem, porém apenas 10% de dados gerados no mundo são estruturados. E como tirar informações de dados não estruturados, ou seja dados sem organização, fora de contextos e estruturas conhecidas?