Modelo de Fluxo de Dados - versão 0

Last modified by Wesley Silva on 2015/09/29 19:00

PROJETO NOVO ODR: MODELO DE REGISTRO E CATALOGAÇÃO DO FLUXO DE INFORMAÇÃO

 

1.      Introdução

 

    Dadas as premissas normativas estabelecidas nos Decretos nº 8/2013 e n° 6.047/2007, iniciou-se em janeiro de 2015 um projeto de desenvolvimento, inovação e estudos aplicados ao sistema “Observatório do Desenvolvimento Regional (ODR)”. Neste contexto, este documento foi elaborado para fins de planejamento do fluxo de informação do Novo ODR. O fluxo de informação que será adotado, ilustrado na Figura 1, será realizado em três etapas:

  1. Obtenção, estruturação e operacionalização de indicadores;
  2. Armazenamento em Sistema de Banco de Dados e georreferenciamento;
  3. Aplicação das bases georreferenciadas em GIS e disponibilização no ODR.

fluxograma.jpeg

Figura 1: Fluxo de Informação no Novo ODR

    O presente documento trata, específicamente, das normas para catalogação e registro detalhado de cada produto resultante da primeira etapa do fluxo de informação. A diretriz para documentação será pautada na reprodutibilidade. O objetivo é que o registro seja claro o suficiente para que a informação possa ser reproduzida por qualquer outro operador que não tenha executado tal trabalho. Com base nessa premissa, os trabalhos serão desenvolvidos – e ao mesmo tempo, de certa forma, registrados – em rotinas computacionais implementadas no software em R [R-project]. 

Serão pautados neste documento diretrizes para execução das seguintes tarefas:

  1. Registro de bases obtidas em fontes externas e documentações originais;
  2. Direcionamento de trabalho: temas e indicadores relacionados;
  3. Controle de alterações das rotinas em R;
  4. Forma de armazenamento do output da etapa 1 do fluxo: as bases consolidadas;

    Um modelo do fluxo de informação deve ser elaborado por vários motivos. Em primeiro lugar, devido à diversidade de naturezas e formatos das bases de dados primárias, muitas delas demandando tratamentos específicos e registros pormenorizados. Em segundo lugar, um registro completo e coerente facilita a transmissão de conhecimento, reduzindo portanto o custo de entrada e de treinamento para novos membros. Por último, um registro sistemático que permita o máximo de reprodutibilidade agregará maior credibilidade à informação divulgada e permitirá maior poder de auditoria por parte do usuário final.

 

4.      Diretórios de armazenamento

 

    Todos os arquivos relacionados ao fluxo de informação – as bases de dados, sua documentação, registro de metadados, etc. – estarão armazenados em rede local do Ministério da Integração, na pasta \\MISRV54\CGMA-DADOS\BASES_NOVO_ODR, cuja estrutura segue ilustrada na Figura 2.

    O diretório de trabalho será uma pasta temporária que existirá durante o processo de transição para o modelo operacional que se propõe. Ao final da consolidação deste processo de produção, o diretório em questão se tornará um local de armazenamento central e definitivo para dados que servirão de input para as próximas etapas do fluxo.

fig2.jpg

Figura 2: Diretório "BASES_NOVO_ODR"

    Dentro deste diretório existirão as seguintes pastas:

  • Bases Externas: convencionou-se chamar de bases externas as bases de dados construídas por coordenações, órgãos ou institutos externos à CGMA, contemplando dados não georreferenciados oriundos de estatísticas oficiais, registros administrativos ou derivados. Neste diretório, será criada uma pasta com nome ou sigla própria para cada base obtida onde os arquivos da base serão armazenados em seu formato original. A documentação original da base constará em um subdiretório de Referências e notas;
  • Bases Consolidadas: denominou-se como bases consolidadas as bases não georreferenciadas resultantes de estruturação e/ou construção de indicadores a partir de informações originais. Neste diretório também serão armazenadas as bases elaboradas por combinação de informações ou operações já existentes em outras bases consolidadas. As unidades da menor divisão geopolítica (municipal, estadual, por setor censitário, etc.) deverão ser identificadas por seus respectivos códigos de identificação com base na codificação adotada pelo IBGE;
  • Malhas Geográficas: neste diretório serão armazenadas as malhas geográficas oficiais (shapefiles) da divisão territorial, além dos shapefiles de outras naturezas tais como: malhas de transporte; malha de bacias hidrográficas, malha telecomunicações, etc;
  • Repositório Central do GIT: o diretório RepCentralRotinasODR não sofrerá nenhuma alteração manual. Trata-se de um repositório central utilizado pelo software de controle de versões GIT;

    

5.      Documentação das bases de dados externas

 

    No diretório Bases Externas, em cada pasta referente a alguma base de dados existirá um subdiretório de Referências e notas, onde constará toda a documentação elaborada pelo órgão responsável pela, caso esta esteja disponível. Além da documentação formal, deverá constar um arquivo “LEIA-ME” registrando todo o processo de obtenção, armazenamento e estruturação da base, além de qualquer alteração manual não executada por rotina em R.

fig1.png

Figura 3: Exemplo de armazenamento e documentação de bases externas: base de PIB municipal (IBGE)

 

6.      Glossário de Componentes do ODR – Camadas de informação

 

    As informações disponibilizadas no atual ODR estão categorizadas hierarquicamente em camadas ou níveis por tema e subtemas relacionados. A estrutura detalhada desta classificação está disponibilizada no glossário de dados disponíveis no ODR. Toda a informação está dividida em três grandes camadas: 1) Indicadores de Desenvolvimento Regional, 2) Ações do Governo Federal e 3) Recortes Territoriais.

    Em um primeiro momento, o Glossário de Componentes do ODR servirá de guia para direcionar os trabalhos com obtenção e construção de dados para o novo sistema. A cada variável criada será associado, na planilha de metadados, o código do item previsto ou já disponibilizado no sistema atual e servirá de embasamento ou justificativa para a construção de cada informação.

7.      Estrutura das Bases Consolidadas

 

    As bases consolidadas serão resultantes da estruturação das bases externas e/ou da construção de indicadores. As bases serão armazenadas em formato csv – formato de valores separados por vírgula – e o procedimento de consolidação será documentado e executado através de rotinas em R.

    As bases consolidadas Toda base consolidada deverá conter colunas identificadoras com os seguintes nomes e espeficicações:

  1. codigo_<nível de agregação>: código em formato de texto identificando a unidade da divisão geopolítica considerada – município, estado, microrregião. O termo <nível de agregação> será substituído por:
    • mun6 ou mun7 se o código do município for de 6 ou 7 dígitos, respectivamente;
    • micro, meso, macro,UF  se o nível de agregação for por microrregião, mesorregião, macrorregião ou uf, respectivamente;
  2. ano: quando estatística for de referência em série anual, deverá constar uma coluna numérica informando o ano de referência;
  3. mes: quando a estatística for de referência em série mensal, além da coluna com o ano deverá constar coluna numérica informando o mês, sendo janeiro=1 e dezembro =12;

    Faz-se necessário estabelecer uma nomenclatura das bases consolidadas. A nomenclatura adotada seguirá numeração sequencial de quatro dígitos na forma TAB_<Numeração sequencial>. Na diretriz que se propõe, o conteúdo das tabelas será registrado em planilha de metadados. Por isso mesmo, toda base consolidada só será armazenada no diretório após documentação e catalogação.

 

8.      Rotinas em R e controle de versão

 

    Toda a operacionalização e estruturação que resultará nas Bases Consolidadas será executada mediante scripts implementados no software R. Um material com conteúdo introdutório ao software segue compartilhado em diretório da Nuvem MI.

    As rotinas em R utilizadas para construção das bases consolidadas deverão ser ricas em comentários, catalogadas em planilha de metadados e registradas em controle de versão Git. Inicialmente, o controle de versões será realizado em diretório local do MI. Nessa página é apresentado um passo-a-passo das principais operações executadas com o Git.

9.        Revisão de versões

    Esse modelo que se propõe é uma versão inicial e sofrerá alterações ao longo do tempo. Atualizações serão feitas à medida em que mudanças e adaptações se façam necessárias.

10.      Metadados Variáveis ODR

 

    Fará parte da gestão do fluxo de informação o registro sistemático de metadados das variáveis inseridas nas bases consolidadas. O registro será feito em plan

ilha online compartilhada no google drive para controle de alterações. A ferramenta servirá tanto para gestão interna na CGMA como para input de preenchimento do formulário de metadados do GeoPortal. Cada linha desta planilha armazenará os metadados de alguma coluna pertencente a uma das bases consolidadas. As colunas da planilha de metadados seguem descritas a seguir.

  1. variavel: Nome da variável conforme aparece na base consolidada. Os nomes serão abreviados ao máximo e deverão evitar acentuação, “ç” e espaços.
  2. base: Nome da base consolidada onde a variável descrita está localizada;
  3. descricao: breve descrição do que representa a variável. Detalhes da variável, tais como metodologia de construção, observações, etc serão abordados em relatório à parte.
  4. corte_geo: corte geográfico da variável. Informa o nível de agregação geopolítica da informação;
  5. periodicidade: periodicidade da variável, se é anual, mensal, semestral, etc. ou se a informação é aperiódica, isto é, não é referenciada no tempo ou não possui periodicidade especificada
  6. periodo_i: período inicial da série, no caso de variáveis periódicas
  7. periodo_f: período final da série, no caso de variáveis periódicas
  8. metodologia: link para relatório documentado no XWIKI interno descrevendo em detalhes a metodologia de construção da informação
  9. script: nome da rotina armazenada em repositório GIT para construção da base ou da variável
  10. tipo_fonte: informa se a variável é externa, isto é, se foi obtida sem modificações de valores (apenas de formato) a partir de uma base externa; ou se ela é interna, isto é, se foi obtida mediante operações lógicas, aritméticas ou de agregação a partir de uma ou mais variáveis previamente existentes;
  11. fonte 1, fonte 2,..,fonte n: no caso das variáveis com Tipo_fonte  internas, cada fonte representa o nome de uma base que forneceu uma ou mais coluna necessárias para seu cálculo.
  12. tags: lista de palavras-chave (tags) separadas por vírgula (“,”), indicando temas relacionados à variável ou indicador inserido no banco de dados.
  13. Item_odr: código do item constante no Glossário de Componentes ODR que está associado à variável.

 

 

 

 

Tags:
Created by Wesley Silva on 2015/02/06 14:21
    
This wiki is licensed under a Creative Commons 2.0 license
XWiki Enterprise 6.3 - Documentation