TAB
magazine
tecnologia
arquivos
bibliotecas

ISSN 1647-6115
Março de 2010 | nº 10

Editor: Luís Miguel Ferros
Contacto: tab@keep.pt
Próximos eventos:
7 a 9 de Abril de 2010 - 10º Congresso Nacional de Bibliotecários, Arquivistas e Documentalistas
O 10º Congresso Nacional da BAD subordinar-se-á ao tema: "Políticas da Informação na Sociedade em Rede" e decorrerá entre os dias 7 e 9 de Abril de 2010 no Centro Cultural Vila Flor, Guimarães.
Ler mais...
19 e 20 de Maio de 2010 - XATA 2010 - XML: Aplicações e Tecnologias Associadas
A 8ª conferência nacional XATA 2010 decorrerá nos dias 19 e 20 de Maio de 2010 na Escola Superior de Estudos Industriais e de Gestão (ESEIG), Vila do Conde.
Ler mais...
28 a 30 de Abril de 2010 - ECA 2010 - 8th European Conference on Digital Archiving
Irá realizar-se entre os dias 28 e 30 de Abril de 2010 em Genebra - Suiça o ECA 2010 - 8th European Conference on Digital Archiving.
Organização: Swiss Federal Archives, International Council on Archives' (ICA), European Regional Branch (EURBICA) and the Section on Professional Associations (SPA).
Ler mais...
9 e 10 de Setembro de 2010 - INForum 2010
O 2º INForum irá decorrer nos dias 9 e 10 de Setembro de 2010 na Universidade do Minho em Braga.
Datas importantes:
- 30 de Novembro de 2009: recepção de propostas para tópicos de sessões
- 12 de Dezembro de 2009: notificação da selecção de tópico de sessões
- 18 de Janeiro de 2010: apelo a comunicações para os diversos tópicos
Ler mais...


A KEEP SOLUTIONS oferece uma vasta gama de serviços de suporte ao software de gestão de arquivos definitivos DigitArq, bem como, um conjunto de produtos especialmente vocacionados para a área cultural, nomeadamente, migração de dados, recuperação de suportes, preservação digital, gestão de informação, arquivo digital, entre outros.
Migração de bases de dados de Arquivo

Tendo terminado mais um grande processo de migração das bases de dados de um Arquivo, neste caso o da Biblioteca Pública e Arquivo Regional de Ponta Delgada, onde se migraram todas as bases de dados existentes no ARQBASE para o Digitarq, é altura de fazer alguma reflexão e tecer alguns comentários sobre a abrangência e a complexidade de um processo deste tipo.
Muitas vezes, os detentores das bases de dados, quando equacionam a sua migração para outra plataforma ou para outra aplicação que até usa a mesma tecnologia, estão longe de perceber a complexidade de um processo desta natureza. Para começar, os motores de bases de dados por detrás de, praticamente todas, as aplicações existentes no mercado são relacionais. Isto quer dizer que armazenam a informação em tabelas bidimensionais, que poderão estar relacionadas umas com as outras. Se pensarmos um pouco chegamos depressa à conclusão de que este modelo está muito afastado do modelo conceptual de uma base de dados de arquivo que é hierárquico. Um fundo arquivístico corresponde, em termos estruturais, a uma "árvore" composta por registos relacionados entre si. Cada empresa que desenvolve uma aplicação para arquivos digitais "inventa" uma maneira de colocar esta "árvore" num conjunto de tabelas e trata de conceber funcionalidades que consigam implementar as operações que os arquivistas necessitam de realizar no seu dia-a-dia sobre a "estrutura inventada". É fácil concluir que mesmo dentro da mesma tecnologia, aplicações diferentes armazenam a informação de forma diferente. Para migrar a informação de um sistema para outro é necessário realizar duas grandes tarefas: primeiro criar um mapeamento do modelo original para o modelo novo, e depois codificar um migrador que implemente esse mapeamento. A complexidade destas tarefas está directamente relacionada com a complexidade dos dois modelos. A migração poderia ser resumida na explicação feita não fosse a ocorrência duma variedade de situações que quando surgem complicam enormemente todo o processo.
A experiência acumulada nas migrações realizadas até à data permite-nos fazer um resumo das situações problemáticas. Quanto mais distante no tempo está a tecnologia de base mais complicações são de esperar. Por exemplo, o ARQBASE é uma aplicação existente há já algum tempo e hoje em dia dificilmente se arranjará alguém que consiga mexer no código da aplicação. O leitor poderia interrogar-se "E é necessário fazer isso quando apenas se pretende retirar de lá a informação?". Não seria necessário mexer na aplicação se esta estivesse bem feita e, por exemplo, exportasse bem a informação. No entanto, esta aplicação em particular tem vários problemas na exportação, exportando o conteúdo das bases de dados com muitos erros de formação que depois é necessário corrigir à mão ou programando programas que o façam automaticamente quando o volume de erros ascende aos vários milhares.
Outro problema grave, já detectado por nós no ARQBASE e no CALM é a manutenção da coerência de uma base de dados que estes sistemas fazem. Por exemplo, o ARQBASE permite que o utilizador utilize campos e insira informação em campos que não existem nem sequer estão declarados na definição estrutural da base de dados (como os exportadores usam esta definição para exportarem a informação estes campos nunca são exportados).
Uma base de dados de arquivo tem invariantes hierárquicos muito fortes, tipo: não deveria ser possível criar uma subsérie debaixo de um fundo. O CALM permite criar registos de qualquer nível descritivo e relacioná-los hierarquicamente com registos que nem sequer existem.
Estes problemas estruturais são os mais graves pois podem implicar perda de informação no processo de migração. Os migradores começam sempre pelo fundo (no topo da árvore) e vão descendo para os níveis inferiores, a falta de um registo de um nível intermédio implica a perda da informação de todo esse subramo daquele fundo. Por isso, a nossa insistência com os arquivistas em corrigir todos estes erros antes de avançar com um processo de migração. Às vezes é complicado, pois por exemplo no caso do CALM, encontramos instituições cujas bases de dados continham erros estruturais e foi preciso tempo e várias iterações de parte a parte para se conseguir concluir o processo. Existem outros erros menores, que podem complicar o processo quando aparecem em elevado número, que estão relacionados com o conteúdo. São erros de codificação de caracteres, pois a codificação que o computador faz dos caracteres que usamos pode diferir entre aplicações e sistemas, erros de protecção de caracteres especiais, etc.
Uma vez que cada vez há mais solicitações para este tipo de serviço, escrevi este texto com o propósito de esclarecer um pouco o processo que é a migração de dados. Não é uma coisa impossível mas também não é tão simples como a primeira vista pode parecer e normalmente é um processo pródigo em surpresas.

José Carlos Ramalho - CEO da KEEP SOLTUTIONS
Se não pretender receber esta comunicação, clique [UNSUBSCRIBE] para ser removido da nossa base de dados.

Copyright © 2009 KEEP SOLUTIONS, LDA. Todos os direitos reservados.