Toggle navigation
Go
Log-in
Register
Home
Go to Wiki
Wiki Index
Document Index
User Index
Main
Go to Space
Document Index
Modelo de Fluxo de Dados
2. Revisão, ajustes e catalogação de dados para o ODR
Modelo de Fluxo de Dados - versão 0
Wiki source code of
Modelo de Fluxo de Dados - versão 0
More actions
Content
Comments
Attachments
History
Information
Hide line numbers
1: = PROJETO NOVO ODR: MODELO DE REGISTRO E CATALOGAÇÃO DO FLUXO DE INFORMAÇÃO = 2: 3: 4: 5: == 1. Introdução == 6: 7: 8: 9: Dadas as premissas normativas estabelecidas nos Decretos nº 8/2013 e n° 6.047/2007, iniciou-se em janeiro de 2015 um projeto de desenvolvimento, inovação e estudos aplicados ao sistema “Observatório do Desenvolvimento Regional (ODR)”. Neste contexto, este documento foi elaborado para fins de planejamento do //fluxo de informação// do Novo ODR. O fluxo de informação que será adotado, ilustrado na Figura 1, será realizado em três etapas: 10: 11: 1. Obtenção, estruturação e operacionalização de indicadores; 12: 1. Armazenamento em Sistema de Banco de Dados e georreferenciamento; 13: 1. Aplicação das bases georreferenciadas em GIS e disponibilização no ODR. 14: 15: [[image:fluxograma.jpeg]] 16: 17: //Figura 1: Fluxo de Informação no Novo ODR// 18: 19: 20: O presente documento trata, específicamente, das normas para catalogação e registro detalhado de cada produto resultante da primeira etapa do fluxo de informação. A diretriz para documentação será pautada na //reprodutibilidade//. O objetivo é que o registro seja claro o suficiente para que a informação possa ser reproduzida por qualquer outro operador que não tenha executado tal trabalho. Com base nessa premissa, os trabalhos serão desenvolvidos – e ao mesmo tempo, de certa forma, registrados – em rotinas computacionais implementadas no //software //em R [[[R-project].>>url:http://www.r-project.org/]]// // 21: 22: Serão pautados neste documento diretrizes para execução das seguintes tarefas: 23: 24: 1. Registro de bases obtidas em fontes externas e documentações originais; 25: 1. Direcionamento de trabalho: temas e indicadores relacionados; 26: 1. Controle de alterações das rotinas em R; 27: 1. Forma de armazenamento do //output// da etapa 1 do fluxo: as bases consolidadas; 28: 29: Um modelo do fluxo de informação deve ser elaborado por vários motivos. Em primeiro lugar, devido à diversidade de naturezas e formatos das bases de dados primárias, muitas delas demandando tratamentos específicos e registros pormenorizados. Em segundo lugar, um registro completo e coerente facilita a transmissão de conhecimento, reduzindo portanto o custo de entrada e de treinamento para novos membros. Por último, um registro sistemático que permita o máximo de reprodutibilidade agregará maior credibilidade à informação divulgada e permitirá maior poder de auditoria por parte do usuário final. 30: 31: 32: 33: == 4. Diretórios de armazenamento == 34: 35: 36: 37: Todos os arquivos relacionados ao fluxo de informação – as bases de dados, sua documentação, registro de metadados, etc. – estarão armazenados em rede local do Ministério da Integração, na pasta ~\~\MISRV54\CGMA-DADOS\BASES_NOVO_ODR, cuja estrutura segue ilustrada na Figura 2. 38: 39: O diretório de trabalho será uma pasta temporária que existirá durante o processo de transição para o modelo operacional que se propõe. Ao final da consolidação deste processo de produção, o diretório em questão se tornará um local de armazenamento central e definitivo para dados que servirão de //input// para as próximas etapas do fluxo. 40: 41: 42: [[image:fig2.jpg]] 43: 44: //{{id name="_Ref410987863"/}}Figura 2: Diretório "BASES_NOVO_ODR"// 45: 46: 47: 48: Dentro deste diretório existirão as seguintes pastas: 49: 50: * __Bases Externas__: convencionou-se chamar de //bases externas //as bases de dados construídas por coordenações, órgãos ou institutos externos à CGMA, contemplando dados não georreferenciados oriundos de estatísticas oficiais, registros administrativos ou derivados. Neste diretório, será criada uma pasta com nome ou sigla própria para cada base obtida onde os arquivos da base serão armazenados em seu formato original. A documentação original da base constará em um subdiretório de //Referências e notas//; 51: * __Bases Consolidadas:__ denominou-se como //bases consolidadas// as bases não georreferenciadas resultantes de estruturação e/ou construção de indicadores a partir de informações originais. Neste diretório também serão armazenadas as bases elaboradas por combinação de informações ou operações já existentes em outras bases consolidadas. As unidades da menor divisão geopolítica (municipal, estadual, por setor censitário, etc.) deverão ser identificadas por seus respectivos códigos de identificação com base na codificação adotada pelo IBGE; 52: * __Malhas Geográficas:__ neste diretório serão armazenadas as malhas geográficas oficiais (//shapefiles//) da divisão territorial, além dos //shapefiles// de outras naturezas tais como: malhas de transporte; malha de bacias hidrográficas, malha telecomunicações, etc; 53: * __Repositório Central do GIT:__ o diretório //RepCentralRotinasODR// não sofrerá nenhuma alteração manual. Trata-se de um repositório central utilizado pelo //software// de controle de versões GIT; 54: 55: 56: 57: == 5. Documentação das bases de dados externas == 58: 59: 60: 61: No diretório //Bases Externas//, em cada pasta referente a alguma base de dados existirá um subdiretório de //Referências e notas//, onde constará toda a documentação elaborada pelo órgão responsável pela, caso esta esteja disponível. Além da documentação formal, deverá constar um arquivo “LEIA-ME” registrando todo o processo de obtenção, armazenamento e estruturação da base, além de qualquer alteração manual não executada por rotina em R. 62: 63: [[image:fig1.png]] 64: 65: //{{id name="_Ref410810779"/}}Figura 3: Exemplo de armazenamento e documentação de bases externas: base de PIB municipal (IBGE)// 66: 67: 68: 69: == 6. Glossário de Componentes do ODR – Camadas de informação == 70: 71: 72: 73: As informações disponibilizadas no atual ODR estão categorizadas hierarquicamente em //camadas// ou níveis por tema e subtemas relacionados. A estrutura detalhada desta classificação está disponibilizada no [[glossário de dados disponíveis no ODR>>attach:Glossario.pdf]]. Toda a informação está dividida em três grandes camadas: 1) Indicadores de Desenvolvimento Regional, 2) Ações do Governo Federal e 3) Recortes Territoriais. 74: 75: Em um primeiro momento, o Glossário de Componentes do ODR servirá de guia para direcionar os trabalhos com obtenção e construção de dados para o novo sistema. A cada variável criada será associado, na planilha de metadados, o código do item previsto ou já disponibilizado no sistema atual e servirá de embasamento ou justificativa para a construção de cada informação. 76: 77: == 7. Estrutura das Bases Consolidadas == 78: 79: 80: 81: As bases consolidadas serão resultantes da estruturação das bases externas e/ou da construção de indicadores. As bases serão armazenadas em formato //csv – //formato de valores separados por vírgula – e o procedimento de consolidação será documentado e executado através de rotinas em R. 82: 83: As bases consolidadas Toda base consolidada deverá conter //colunas identificadoras// com os seguintes nomes e espeficicações: 84: 85: 1. **//codigo_<nível de agregação>~://** código em formato de texto identificando a unidade da divisão geopolítica considerada – município, estado, microrregião. O termo <//nível de agregação//> será substituído por: 86: 1*. //mun6 ou mun7// se o código do município for de 6 ou 7 dígitos, respectivamente; 87: 1*. //micro, meso, macro,UF// se o nível de agregação for por microrregião, mesorregião, macrorregião ou uf, respectivamente; 88: 1. **//ano//**: quando estatística for de referência em série anual, deverá constar uma coluna numérica informando o ano de referência; 89: 1. **//mes//**: quando a estatística for de referência em série mensal, além da coluna com o ano deverá constar coluna numérica informando o mês, sendo janeiro=1 e dezembro =12; 90: 91: Faz-se necessário estabelecer uma nomenclatura das bases consolidadas. A nomenclatura adotada seguirá numeração sequencial de quatro dígitos na forma //TAB_<Numeração sequencial>.// Na diretriz que se propõe, o conteúdo das tabelas será registrado em planilha de metadados. Por isso mesmo, toda base consolidada só será armazenada no diretório após documentação e catalogação. 92: 93: 94: 95: == 8. Rotinas em R e controle de versão == 96: 97: 98: 99: Toda a operacionalização e estruturação que resultará nas Bases Consolidadas será executada mediante //scripts// implementados no //software R//. Um material com conteúdo introdutório ao //software// segue compartilhado [[em diretório>>url:http://cloud.mi.gov.br/public.php?service=files&t=82a109b59f2574978fdad73c70a84de7]] da Nuvem MI. 100: 101: As rotinas em R utilizadas para construção das bases consolidadas deverão ser ricas em comentários, catalogadas em planilha de metadados e registradas em controle de versão [[Git>>url:http://git-scm.com/]]. Inicialmente, o controle de versões será realizado em diretório local do MI. [[Nessa página>>doc:Operações básicas com Git||rel="__blank"]] é apresentado um passo-a-passo das principais operações executadas com o Git. 102: 103: 104: 105: == 9. Revisão de versões == 106: 107: Esse modelo que se propõe é uma versão inicial e sofrerá alterações ao longo do tempo. Atualizações serão feitas à medida em que mudanças e adaptações se façam necessárias. 108: 109: 110: == 10. Metadados Variáveis ODR == 111: 112: 113: 114: Fará parte da gestão do fluxo de informação o registro sistemático de //metadados// das variáveis inseridas nas bases consolidadas. O registro será feito em //[[//plan//>>url:https://docs.google.com/spreadsheets/d/1II1J66ytSPQJmbvTto9-2OGpA3LWG27JXECOds1P03A/pubhtml?gid=1232661692&single=true||rel="__blank"]]// 115: 116: //[[//ilha online//>>url:https://docs.google.com/spreadsheets/d/1II1J66ytSPQJmbvTto9-2OGpA3LWG27JXECOds1P03A/pubhtml?gid=1232661692&single=true||rel="__blank"]]// compartilhada no //google drive// para controle de alterações. A ferramenta servirá tanto para gestão interna na CGMA como para //input// de preenchimento do formulário de metadados do GeoPortal. Cada linha desta planilha armazenará os metadados de alguma coluna pertencente a uma das bases consolidadas. As colunas da planilha de metadados seguem descritas a seguir. 117: 118: 1. //__variavel:__// Nome da variável conforme aparece na base consolidada. Os nomes serão abreviados ao máximo e deverão evitar acentuação, “ç” e espaços. 119: 1. //__base:__// Nome da base consolidada onde a variável descrita está localizada; 120: 1. //__descricao__~:// breve descrição do que representa a variável. Detalhes da variável, tais como metodologia de construção, observações, etc serão abordados em relatório à parte. 121: 1. //__corte_geo__//: corte geográfico da variável. Informa o nível de agregação geopolítica da informação; 122: 1. //__periodicidade__//: periodicidade da variável, se é anual, mensal, semestral, etc. ou se a informação é //aperiódica//, isto é, não é referenciada no tempo ou não possui periodicidade especificada 123: 1. //__periodo_i__//: período inicial da série, no caso de variáveis periódicas 124: 1. //__periodo_f__//: período final da série, no caso de variáveis periódicas 125: 1. //__metodologia__//: link para relatório documentado no [[XWIKI>>doc:WebHome]] interno descrevendo em detalhes a metodologia de construção da informação 126: 1. //__script:__// nome da rotina armazenada em repositório GIT para construção da base ou da variável 127: 1. //__tipo_fonte__//: informa se a variável é externa, isto é, se foi obtida sem modificações de valores (apenas de formato) a partir de uma base externa; ou se ela é interna, isto é, se foi obtida mediante operações lógicas, aritméticas ou de agregação a partir de uma ou mais variáveis previamente existentes; 128: 1. //__fonte 1, fonte 2,..,fonte n__~:// no caso das variáveis com //Tipo_fonte// internas, cada fonte representa o nome de uma base que forneceu uma ou mais coluna necessárias para seu cálculo. 129: 1. //__tags:__//** **lista de palavras-chave (//tags//) separadas por vírgula (“,”), indicando temas relacionados à variável ou indicador inserido no banco de dados. 130: 1. //__Item_odr__~:// código do item constante no Glossário de Componentes ODR que está associado à variável. 131: 132: 133: 134: == == 135: 136: 137: 138: 139: 140:
Applications
Blog
Dashboard
User Index
Quick Links
Sandbox