As fotografias de Guilherme Gaensly no acervo do Museu Paulista/Sobre o desenvolvimento deste livro semântico

Origem: Wikilivros, livros abertos por um mundo aberto.
Sobre o desenvolvimento deste livro semântico


Nesta página, você encontra o contexto da elaboração do Wikilivro As fotografias de Guilherme Gaensly no Museu Paulista e detalhes técnicos sobre o seu desenvolvimento enquanto livro semântico.

O que é um livro semântico[editar | editar código-fonte]

Este Wikilivro foi desenvolvido tomando como elemento central a exploração das integrações de metadados da Coleção Guilherme Gaensly no Museu Paulista disponibilizadas no Wikidata, a fim de gerar um livro com a ferramenta Mbabel de Natural Language Generation (NLG).

O Wikidata é o banco de dados livre, colaborativo, multilíngue e web semântico dos projetos Wikimedia. No contexto de parcerias GLAM Wiki, quando lotes de imagens de museus e instituições de cultura são carregados no Wikimedia Commons, o repositório multimídia livre, também são disponibilizados os metadados das imagens cedidos pela instituição parceira no Wikidata, de forma que é possível utilizá-los para uma série de projetos de integração com plataformas Wikimedia e terceiras. Os metadados são armazenados de forma a serem compreensíveis por humanos e por máquinas, o que lhes confere alto potencial de utilização e exploração para inovação. No caso deste Wikilivro, utilizou-se durante o seu desenvolvimento recursos de tecnologias de Natural Language Generation (NLG), usadas comumente para a criação de textos automatizados com base em bancos de dados estruturados.

Todas as páginas deste Wikilivro foram criadas a partir de integração da plataforma Wikilivros com o Wikidata e imagens previamente carregadas no Wikimedia Commons, configurando o primeiro livro semântico em português dos projetos Wikimedia. Essa integração é proporcionada pela implementação da ferramenta Mbabel no Wikilivros, a partir da qual é possível gerar textos automaticamente em narrativas estruturadas com dados cadastrados na base de dados.

Sobre a ferramenta Mbabel[editar | editar código-fonte]

A ferramenta Mbabel foi desenvolvida em 2018 no contexto de pesquisa sobre Jornalismo Computacional e narrativas estruturadas com Wikidata no Centro de Pesquisa, Inovação e Difusão em Neuromatemática (CEPID Neuromat/FAPESP), inspirada em um template de projeto GLAM do Metropolitan Museum of Art. A ferramenta gera, a partir do que se chama de "narrativa estruturada", textos com estrutura pré-determinada, genérica e editável. Narrativas estruturadas são textos verbais, compreensíveis por humanos, automatizados a partir de arranjos pré-determinados que processam informações de bancos de dados estruturados - no caso, o Wikidata. O banco de dados é organizado semanticamente a partir de propriedades (Pid) e itens (Qids). A narrativa estruturada é construída a partir de elementos textuais fixos e da substituição de elementos por valores de propriedades cadastrados no item desejado do Wikidata, conforme será descrito na seção de etapas do desenvolvimento deste livro semântico. Foram criadas entre 2018 e 2019 narrativas estruturadas focadas em verbetes na Wikipédia de obras de arte, museus, arquivos, bibliotecas, livros, filmes, jornais, sismos e eleições municipais estaduais brasileiras. Agora, Mbabel foi utilizado para a exploração de potencialidades da geração automática de textos no projeto Wikilivros para a elaboração de um livro de fotografias semântico. A ferramenta Mbabel esteve entre as menções honrosas do WikidataCon Award em Berlim, em 2019 e agora alça novos horizontes com a proposta de desenvolvimento de livro semântico no Wikilivros.

Elementos da página[editar | editar código-fonte]

Cada página deste livro contém uma fotografia de Guilherme Gaensly no acervo do Museu Paulista, também conhecido como Museu do Ipiranga, em São Paulo. As legendas das imagens e suas fichas técnicas foram geradas automaticamente a partir de um processo de estruturação narrativa com a base de dados web semântica Wikidata. Há também queries e sugestões de participação em jogos semânticos, recursos que incentivam o leitor/usuário a explorar a coleção do Museu Paulista já disponibilizada nos projetos Wikimedia e a participar de processos colaborativos de curadoria e difusão do universo museológico.

Cada página gerada automaticamente possui narrativa estruturada que compõe a legenda e a ficha técnica da imagem, queries e elementos de interação.

Imagem[editar | editar código-fonte]

As fotografias deste livro foram previamente carregadas no contexto do GLAM do Museu Paulista, em 2018. Estão disponibilizadas sob licenças livres na plataforma Wikimedia Commons - o repositório multimídia livre. O carregamento de imagens foi realizado juntamente com o carregamento de metadados de cada uma delas no banco de dados Wikidata. Tanto os dados quanto as imagens foram cedidas pelo Museu Paulista. No Wikilivro, quando o usuário clica na imagem, pode dar zoom em sua visualização e ser redirecionado para o Wikimedia Commons, no qual encontrará dados sobre ela, além da licença sob a qual foi carregada.

Legenda e ficha técnica[editar | editar código-fonte]

A legenda da fotografia e a seção de ficha técnica incluem os metadados sobre a imagem de Guilherme Gaensly que o usuário/leitor visualiza como elemento principal da página do Wikilivro e servem para contextualizar o conteúdo a partir de dados do Wikidata. A estrutura narrativa das legendas e a ficha técnica são criadas a partir de template narrativo via ferramenta Mbabel. Quanto mais informações sobre a imagem cadastradas no Wikidata, mais frases podem ser geradas na legenda e mais dados são adicionados à ficha técnica no momento de criação da imagem.

Queries[editar | editar código-fonte]

Na seção "Descubra mais sobre a Coleção Guilherme Gaensly", o usuário/leitor encontra uma série de queries realizadas a partir dos dados da coleção registrados no Wikidata. As queries são feitas em SPRQL, pelo Wikidata Query Service. Ao clicar em uma das queries, será realizada uma busca no banco de dados Wikidata que irá gerar como resultado uma seleção de conteúdos a partir de propriedades e valores registrado nos itens da coleção. Assim, conforme o Wikidata é alimentado com mais dados nos recursos de curadoria interativa, melhores são os resultados das buscas das queries, resultando na maior quantidade e qualidade de informações.

Participe da curadoria desta imagem[editar | editar código-fonte]

Esta seção da página gerada automaticamente visa incentivar a participação do usuário/leitor na curadoria de seu conteúdo específico, ou seja, em atuar ativamente na melhoria da qualidade das informações registradas no Wikidata sobre as fotografias do livro. Isso faz com que haja uma curadoria colaborativa de dados relacionados à Coleção Guilherme Gaenlsy, de forma a promover simultaneamente o acesso a níveis de conhecimento que ultrapassam a observação passiva da imagem e a viabilização do desenvolvimento de recursos de comunicação computacional com os dados estruturados. A partir de dados estruturados, é possível desenvolver projetos dentro das plataformas Wiki e por terceiros, configurando-se também uma atuação na difusão por via da comunicação computacional.

Neste projeto com o Wikilivros, os recursos de curadoria colaborativa incluem a inserção de informações e a melhoria de dados existentes em atividades de identificação de elementos que descrevem as imagens e contagem de elementos representados nelas, assim como a identificação de sua posição na imagem, além de recursos para adição de outros metadados no Wikidata e no Wikimedia Commons. Todas as ferramentas e jogos são user friendly e desenvolvidos de forma que sua navegação seja intuitiva e simples. Conforme os usuários melhoram os dados sobre a coleção Guilherme Gaensly a partir destas ferramentas, melhores são os resultados por exemplo de queries realizadas sobre ela, agregando dinamicidade ao projeto que não se encerra no Wikilivro.

A seguir, são explicados cada um dos recursos de interação:

1. Povo Conta[editar | editar código-fonte]

Trata-se de um jogo desenvolvido para o Museu Paulista com o objetivo de melhorar as informações no Wikidata sobre a quantidade de elementos retratados em uma imagem. Ao clicar no link para o Povo Conta, o usuário é redirecionado para uma outra página com a mesma fotografia da página em que estava no Wikilivro. Lá, são mostrados os descritores da imagem ("bonde", "pessoa", "edifício", "árvores", por exemplo) em formato de formulário. Pede-se que o usuário conte a quantidade de elementos presentes na imagens, participando de sua validação. A informação fica registrada no elemento Wikidata daquela fotografia, de forma que o usuário não precisa acessar o Wikidata para editá-lo.

2. Wikidata Art Description Explorer[editar | editar código-fonte]

O jogo desenvolvido pelo Wikimedia District of Columbia em parceria com o Smithsonian Institute é uma interface para adição de informações sobre elementos que descrevem a imagem apresentada, a propriedade retrata (P180). O usuário observa a imagem e digita na barra quais elementos estão presentes nela e, assim como no Povo Conta, suas contribuições são adicionadas ao respectivo item no Wikidata sem que precise acessar diretamente a base de dados. Com o WADE, o usuário pode inserir mais informações sobre o que as fotografias de Guilherme Gaensly capturam.

3. Wikidata Image Positions[editar | editar código-fonte]

Esta ferramenta permite que o usuário identifique a posição relativa na imagem de elementos descritores. Ao acessá-la, o usuário visualiza a foto de Gaensly e pode marcar com um seletor a região na imagem em que determinados elementos já registrados no retrata (P180) aparecem. Com isso, são adicionados ao Wikidata informações sobre a localização de objetos retratados na imagem.

4. ISA[editar | editar código-fonte]

De forma semelhante do Wikidata Description Explorer, a ferramenta é voltada para a adição de dados estruturados, em especial o retrata (P180) e a legenda, sobre a imagem no Wikimedia Commons. As contribuições pela ferramenta também são multilíngues e servem para a melhoria da identificação de elementos capturados em fotografias e em outros tipos de imagens.

5. TABernacle[editar | editar código-fonte]

Trata-se de uma ferramenta que permite a visualização de metadados registrados no Wikidata sobre a imagem. Ao acessá-la pela página da fotografia no Wikilivros, o usuário é redirecionado para uma visualização em colunas nas quais visualiza quais metadados existem sobre aquela imagem e que ainda podem ser adicionados ou melhorados. Dentre os metadados de fotografias, é possível que o TABernacle apresente opções de preenchimento de propriedades como criador, data de criação, material, técnica utilizada, por exemplo, além de identificadores, como Enciclopédia Itaú Cultural e Google Arts and Culture. Também é possível adicionar rótulos - o título do item em outros idiomas - e descrições sobre o item.

Saiba mais sobre o projeto que criou este livro[editar | editar código-fonte]

Nesta seção, o usuário é redirecionado para a página do projeto GLAM do Museu Paulista, na qual encontra outras coleções carregadas no Wikidata e no Wikimedia Commons, usadas também em projetos de difusão do acervo dentro e fora da Wiki. Também é redirecionado para o site oficial do Museu do Ipiranga, também conhecido como Museu Paulista.

Categoria[editar | editar código-fonte]

No universo de organização da informação nos projetos Wikimedia, é necessário que páginas sejam enquadradas em categorias. No Wikilivros, é necessário criar uma categoria mãe para a inclusão de todas as páginas que formam o conjunto do livro. No caso, a categoria utilizada é Livro/As fotografias de Guilherme Gaensly no acervo do Museu Paulista.

Etapas de desenvolvimento[editar | editar código-fonte]

Para fins de registro e de compreendendo que as funcionalidades deste livro semântico podem ser reproduzidas em outros contextos, nesta seção compartilhamos o seu processo de desenvolvimento, a partir de abordagem técnica.

Implementação de módulos no Wikilivros[editar | editar código-fonte]

Para que a ferramenta Mbabel funcionasse também no Wikilivros, foi necessário implementar dois módulos já existentes na Wikipédia em português neste outro projeto Wikimedia. O Módulo WikidataIB designa funções e parâmetros para a integração do Wikidata aos recursos do Wikilivros. De forma semelhante, o Módulo Mbabel comporta funções e parâmetros necessários para a criação de predefinições de narrativas estruturadas no Wikilivros. É possível adicionar mais funções aos módulos, a fim de trazer mais recursos para os projetos. Os módulos foram desenvolvidos em linguagem Lua de programação.

Organização das fotografias do Wikimedia Commons[editar | editar código-fonte]

O projeto de livro semântico para o Museu Paulista baseado em fotografias de Guilherme Gaensly começou com uma análise dos materiais disponibilizados sob licenças livres no Wikimedia Commons - o repositório multimídia livre. As fotografias e cartões-postais foram carregadas no contexto do GLAM do Museu Paulista em 2018. Dentre as 140 fotografias disponíveis, notou-se a presença de três temas principais: imagens que retratavam a cidade e o Estado de São Paulo no início do século XX, fotografias do Museu Paulista e retratos. Com isso, decidiu-se por separar as fotografias nessas categorias que deram origem a três modelos narrativos para suas legendas. Criou-se, portanto, uma primeira estrutura de base para o sumário do livro, com a segmentação nessas três temáticas e organização das páginas a serem criadas para cada fotografia e cartão-postal, com indicação de seu arquivo correspondente no Wikimedia Commons.

Elaboração da narrativa estruturada[editar | editar código-fonte]

A elaboração da narrativa estruturada consiste, em linhas gerais, de um template narrativo com lacunas que serão preenchidas por informações extraídas do Wikidata, como variáveis. Por isso, o texto precisa ser genérico o suficiente para comportar a variedade de temas possíveis dentro do projeto e considerar que nem todas as variáveis serão preenchidas, uma vez que há dependência direta da quantidade das informações registradas previamente no Wikidata. No caso, cada fotografia possui um conjunto de metadados que foram cedidos pelo museu e já constavam no banco de dados. Analisamos que as seguintes informações estavam disponíveis nos itens de fotografias de Guilherme Gaensly no Museu Paulista no Wikidata:

  • P31 - instância de
  • P18 - imagem no Wikimedia Commons
  • P170 - criador
  • P571 - data de criação
  • P495 - país de origem
  • P921 - tópico principal da obra criativa
  • P180 - retrata
  • P186 - material utilizado
  • P2048 - altura
  • P2049 - largura
  • P276 - localização
  • P195 - coleção
  • P217 - número de inventário
  • P973 - descrito na URL
  • P5008 - liste de interesse do wikiprojeto

A partir destas informações nos respectivos itens das fotografias no Wikidata, foi possível desenvolver 10 modelos distintos de legendas para acompanhar as 140 imagens no Wikilivro. Embora comportem as mesmas informações, as legendas alternam sua ordem de apresentação e usam textos fixos um pouco distintos. Com isso, pretende-se que a leitura do livro seja mais dinâmica e não muito repetitiva. As legendas são construídas a partir da organização de parâmetros do no seguinte formato:

A obra '''''{{#invoke:Mbabel|title|Q49904378}}'''''{{#invoke:Mbabel|phrase|P170|qid=Q49904378|text=, de autoria de @|var=@}} {{#invoke:Mbabel|phrase|P180|qid=Q49904378|text=retrata elementos como @.|var=@|lastsep=e}}{{#invoke:Mbabel|phrase|P2048|qid=Q49904378|text= A fotografia de @ de altura|var=@|maxvals=1|unit=unidade}}{{#invoke:Mbabel|phrase|P2049|qid=Q49904378|text= por @ de largura,|var=@|maxvals=1|unit=unidade}}{{#invoke:Mbabel|phrase|P186|qid=Q49904378|text= produzida em @|var=@}}{{#invoke:Mbabel|phrase|P495|qid=Q49904378|text= no @|var=@|artigosemlink=sim}}{{#invoke:Mbabel|phrase|P571|qid=Q49904378|text= em @,|var=@|datasemlink=sim}} {{#invoke:Mbabel|phrase|P195|qid=Q49904378|text=integra a @.|var=@|maxvals=1}}

Quando o @ é substituído pelo qid desejado, como Q49904378, o resultado gerado é a seguinte legenda:

A obra São Paulo. Largo da Sé, de autoria de Guilherme Gaensly retrata elementos como Praça da Sé, edificação, rua, ser humano e bonde. A fotografia de 8,5 cm de altura por 13,8 cm de largura, produzida em papel no Brasil em século XX, integra a Coleção Museu Paulista.

A construção das legendas inclui os parâmetros datasemlink e artigosemlink, que impedem a geração de links em determinados trechos da legenda, <maxvals=1>, quando for desejada a inclusão de apenas uma informação na chamada, e lastsep=e para que a listagem de elementos tenha separação por vírgulas e pela letra "e" antes do último elemento. Tais parâmetros auxiliam na geração automática de textos que soam naturais.

Já a ficha técnica, criada também sob a mesma lógica, possui o seguinte código:

:• '''Título:''' ''{{#invoke:Mbabel|title|qid={{{qid|$1}}}}}''<br>{{#invoke:Mbabel|phrase|P170|qid={{{qid|$1}}}|text=:• '''Criador:''' @<br>|var=@|style_postfix=</u></span>|style_prefix=<span style="color:#101a18"><u>}}{{#invoke:Mbabel|phrase|P31|qid={{{qid|$1}}}|text=:• '''Tipo:''' @<br>|var=@|lastsep=e|style_postfix=</u></span>|style_prefix=<span style="color:#101a18"><u>}}{{#invoke:Mbabel|phrase|P571|qid={{{qid|$1}}}|text=:• '''Data:''' @<br>|var=@|datasemlink=sim}}{{#invoke:Mbabel|phrase|P495|qid={{{qid|$1}}}|text=:• '''País de origem:''' @<br>|var=@|artigosemlink=sim}}{{#invoke:Mbabel|phrase|P2048|qid={{{qid|$1}}}|text=:• '''Dimensões:''' @ de altura|var=@|maxvals=1|unit=unidade}} {{#invoke:Mbabel|phrase|P2049|qid={{{qid|$1}}}|text=por @ de largura<br>|var=@|maxvals=1|unit=unidade}}{{#invoke:Mbabel|phrase|P186|qid={{{qid|$1}}}|text=:• '''Material da obra:''' @<br>|var=@|style_postfix=</u></span>|style_prefix=<span style="color:#101a18"><u>}}{{#invoke:Mbabel|phrase|P921|qid={{{qid|$1}}}|text=:• '''Tópico principal da obra criativa:''' @<br>|var=@|style_postfix=</u></span>|style_prefix=<span style="color:#101a18"><u>}}{{#invoke:Mbabel|phrase|P195|qid={{{qid|$1}}}|text=:• '''Integra:''' @<br>|var=@|maxvals=1|style_postfix=</u></span>|style_prefix=<span style="color:#101a18"><u>}}{{#invoke:Mbabel|phrase|P276|qid={{{qid|$1}}}|text=:• '''Localização:''' @<br>|var=@|style_postfix=</u></span>|style_prefix=<span style="color:#101a18"><u>}}{{#invoke:Mbabel|phrase|P217|qid={{{qid|$1}}}|text=:• '''Número de inventário:''' @<br>|var=@|maxvals=1|style_postfix=</u></span>|style_prefix=<span style="color:#101a18"><u>}}{{#invoke:Mbabel|phrase|P4701|qid={{{qid|$1}}}|text=:• '''Identificador no [[:w:pt:Google Arts & Culture|<span style="color:#101a18"><u>Google Arts & Culture</u></span>]]:''' <span class="plainlinks">[https://artsandculture.google.com/asset/wd/@ <span style="color:#101a18"><u>@</u></span>]</span><br>|var=@}}{{#invoke:Mbabel|phrase|P4399|qid={{{qid|$1}}}|text=:• '''Identificador na [[:w:pt:Enciclopédia Itaú Cultural|<span style="color:#101a18"><u>Enciclopédia Itaú Cultural</u></span>]]:''' <span class="plainlinks">[https://enciclopedia.itaucultural.org.br/@ <span style="color:#101a18"><u>@</u></span>]</span><br>|var=@}}{{#invoke:Mbabel|phrase|P217|qid={{{qid|$1}}}|text=:• '''Identificador no Acervo do Museu Paulista''': <span class="plainlinks">[http://acervo.mp.usp.br/IconografiaV2.aspx <span style="color:#101a18"><u>@</u></span>]</span><br>|var=@|maxvals=1}}:• '''Identificador no [[:w:pt:Wikidata|<span style="color:#101a18"><u>Wikidata</u></span>]]:''' [[:d:{{{qid|$1}}}|<span style="color:#101a18">{{{qid|$1}}}</span>]]

Só serão apresentadas as informações que estejam cadastradas no item do Wikidata antes da criação da página. Por isso, quanto mais completo o item estiver com metadados, mais possibilidades de narrativas estruturadas serão possíveis de serem criadas e apresentada com a geração de texto automático.

Criação do seletor[editar | editar código-fonte]

Após testes com as legendas e os primeiros esboços de design de página para a fotografia, foi desenvolvido um seletor de página do livro, transcluindo uma predefinição que monta a página usando uma distribuição aleatória dos modelos diferentes de legendas entre as 140 fotografias da coleção. A predefinição do seletor está disponível aqui. A predefinição que aleatoriza as legendas e monta a página está disponível aqui.

Implementação de recursos interativos[editar | editar código-fonte]

Conforme apresentado na seção anterior, a estrutura da página deste Wikilivro semântico inclui direcionamentos para ferramentas externas que estimulam a interação do leitor na curadoria dos itens e que melhoram a qualidade dos dados adicionados ao Wikidata e ao Wikimedia Commons. Esses recursos são as ferramentas wiki: Povo Conta, Wikidata Art Description Explorer (WADE), Wikidata Image Positions, ISA e TABernacle. Na predefinição do seletor, foi implementado redirecionamentos para as ferramentas a partir da substituição do Qid de cada fotografia, conforme o seguinte modelo:

<span class="plainlinks">Adicione a quantidade de cada descritor desta obra no [https://tools.wmflabs.org/povoconta/qid/{{{qid|}}} <span style="color:#101a18"><u>'''''Povo Conta'''''</u></span>]<span/>

Além dos recursos interativos, foram incluídas na predefinição queries relativas às fotografias individualmente e à coleção Guilherme Gaensly. As queries apresentam resultados diferentes e mais completos conforme os usuários melhoram os itens no Wikidata, fornecendo mais dados semânticos. De forma fixa, todas as páginas geradas por essa predefinição incluem links para o projeto GLAM do Museu Paulista na Wikipédia e para o site oficial do museu.

Geração automática das páginas do livro[editar | editar código-fonte]

Antes de as páginas do livro serem criadas, a listagem de fotografias, antes separadas em três temas, foram reorganizadas em capítulos. O tema de São Paulo foi destrinchado nos capítulos: A Cidade de São Paulo, Edifícios e Construções, O Centro de São Paulo, Parque e Estação e Parque da Luz e O Estado de São Paulo. Mantiveram-se os capítulos O Museu Paulista e Retratos. A listagem no sumário recebeu o código para criação automática das páginas com base na predefinição do seletor e as páginas foram geradas.

Realização[editar | editar código-fonte]

Este livro semântico integra a Iniciativa Wikipédia do Novo Museu do Ipiranga, organizada pelo Wiki Movimento Brasil (WMB) e pelo Museu Paulista. A partir dela, ao longo de 2020, serão desenvolvidos produtos e atividades de difusão digital do acervo do museu sob licença livre nas plataformas Wikimedia. A iniciativa tem parceria com a Fundação Banco do Brasil e realização da Universidade de São Paulo (USP) e da Fundação de Apoio à Universidade de São Paulo (FUSP).

Contato[editar | editar código-fonte]

Quer construir um wikilivro semântico também ou saber mais sobre esse projeto? Deixe um recado na página de discussão de EricaAzzellini e Ederporto ou escreva para erica@wmnobrasil.org e eder.porto@wmnobrasil.org.