Metodologia


1. Metodologia

O CruzaGrafos, lançado em 2020, é uma ferramenta gráfica de software livre para verificações cruzadas e investigações avançadas de dados, ao possibilitar ver relações em grafos. Com essa ferramenta, jornalistas podem analisar e expor relacionamentos entre diferentes entidades (pessoas, empresas e autuações ambientais, e outras bases de dados no futuro), mesmo que elas apareçam em diferentes bancos de dados nos repositórios da Abraji (Associação Brasileira de Jornalismo Investigativo) e do Brasil.IO.

Essa iniciativa pretende catalogar, limpar, analisar e publicar grandes bancos de dados públicos, que no Brasil muitas vezes estão dispersos e publicados em formatos de difícil análise ou com enormes quantidades de informações.
As condições acima exigem muita pesquisa, catalogação, limpeza e análise, o que muitas vezes torna o trabalho jornalístico lento ou mesmo inviável em várias redações brasileiras.
Muitas das bases de dados foram originárias do trabalho de Claudio Weber Abramo, um pioneiro do jornalismo de dados no Brasil, falecido em agosto de 2018, que atuava em conjunto com o jornalista e ex-presidente da Abraji José Roberto de Toledo.
Os dados, quando reunidos, atualizados, limpos e organizados, permitem vários tipos de investigações e cruzamentos, com grafos, quadros, tabelas, tutoriais e arquivos para download. Todo o software desenvolvido para o projeto será disponibilizado para redações e particulares (a ser implantado ainda, sob demanda).
Este projeto visa auxiliar redações e jornalistas brasileiros, oferecendo mais conteúdo para que jornalistas e pesquisadores de dados façam análises exploratórias de dados com diferentes linguagens e ferramentas tecnológicas.
Isso pode ser feito com o uso de grafos. Na matemática a teoria dos grafos permite encontrar as relações entre os objetos de um determinado conjunto. Nesse caso, as relações entre vértices e arestas, que os grafos mostram, podem ser utilizadas para investigar grandes bancos de dados de forma visual e interativa.
Assim, relações entre empresas, políticos, pagamentos, obras públicas, pesquisas, entre tantas outras possibilidades, serão exploradas e visualizadas com o auxílio de grafos.
 
2. Amostra

Atualmente o CruzaGrafos tem dados de candidaturas eleitorais coletados no Tribunal Superior Eleitoral, com as informações gerais como ano da eleição, cargo, nome completo, nome urna, número sequencial no pleito, partido político, unidade eleitoral, unidade federativa e CPF completo do candidato.

E ainda dados da Receita Federal do Brasil sobre empresas com QSA (Quadro de Sócios e Administradores), com informações como nome fantasia, razão social, nomes completos dos sócios, CNPJ e o CPF mascarado dos sócios – a Receita e outras instituições públicas não publicam o conteúdo inteiro do CPF, de 11 dígitos, mas coloca asteriscos em alguns números, como nesse exemplo: ***.270.068-**

E também em 2021 o projeto passou a cadastrar autuações ambientais lavradas pelo Ibama (Instituto Brasileiro do Meio Ambiente e dos Recursos Naturais Renováveis), que podem ser cruzadas por nome, CPF e CNPJ. Especificamente sobre esses dados foram necessários vários passos de limpeza e análise.

Os dados dessa análise foram baixados do Portal de Dados Abertos do Ibama, porém os mesmos dados também estão disponíveis para consulta em um sistema chamado Consulta de Autuações Ambientais e Embargos no qual também há informações referentes aos autos que constam na tabela auto_infracao. Nele, além de dados que já constam na tabela, há também outros como o CPF completo do infrator e o status do débito. 

O total de registros disponíveis em ambos também diverge. Para efetuar o download completo de dados no segundo sistema seria necessário desenvolver e executar um robô que baixe os dados para todas as UFs/anos disponíveis e, por isso, decidimos seguir pelos dados disponíveis no Portal de Dados Abertos do Ibama.

Alguns CSVs disponíveis no portal de dados abertos do Ibama possuem erros de estrutura, em que registros aparecem com números variados de colunas. Diversos registros (em várias tabelas) possuem erros de digitação ou valores equivalentes a nulo, como CPF/CNPJ e nome do infrator na tabela auto_infracao.

A equipe do CruzaGrafos então fez em 2021 várias reuniões com técnicos do Ibama para tentar entender melhor esses erros e encontrar uma forma de criar uma base de dados mais segura e eliminar suspeitas ou erros claros. Os dados então foram limpos e criado uma nova coluna, num_processo_completo, que é o número do processo completo nos bancos de dados do Ibama, com dígitos verificadores recalculados e formatação correta. O num_processo_completo pode ser encontrado depois no sistema SEI (Sistema Eletrônico de Informações) do Ibama - conforme mostramos no ícone descrição (i) de cada autuação visualizada nos grafos.

Todos os processos são registrados no SEI do Ibama (autos de infração ou embargos). A equipe do CruzaGrafos fez um programa que formata os números de processo de acordo com o padrão do NUP - Número Único de Protocolo. Isso foi necessário porque senão não seria possível associarmos o mesmo processo a pessoas diferentes, dado que para alguns registros no Ibama mais antigos o número do processo vem sem formatação. Atualmente os processsos mais recentes do Ibama já tem um nova formatação mais segura (com 4 dígitos, com 2 dígitos verificadores e formatados). Neste site há uma calculadora dos dígitos verificadores do NUP.

Para checar as informações sobre cada autuação e atualizar informações mais recentes, você deve consultar o sistema SEI (Sistema Eletrônico de Informações) do Ibama, com a digitação do num_processo_completo. Porém o sistema de busca do SEI tem algumas falhas, veja algumas dicas:

- Há processos como estes que aparecem facilmente, com a digitação de todos os dígitos (02001.012562/2021-54), ou (02022.000630/2012-01)

- Outros como o (02024.005680/2001-02) você não encontra se digitar inteiro. Uma possibilidade é procurar pelo número do órgão + número sequencial (02024.005680). Aí você tem que verificar na lista de encontrados qual tem o ano certo (2001), e depois se este processo corresponde à mesma empresa/pessoa ré no processo. Mas vale ressaltar que o dígito verificador no SEI no Ibama pode ser diferente também (02 e no SEI está 88), isso pode significar que o dígito verificador foi criado de forma incorreta pelo Ibama. Você pode checar o dígito verificador neste site de calculadora. Por exemplo, se colocar no site da calculadora o valor inicial de 15 dígitos (02024.005680/2001), o DV gerado foi 02. Então provavelmente o dado de código está incorreto no SEI, mas se trata do mesmo processo.

- Também há ainda casos em que a busca do SEI não encontra processos que existem, principalmente casos mais antigos, como (02005.000683/1998-13). Uma alternativa é buscar direto na Consulta de Autuações Ambientais e Embargos - selecione Autuações Ambientais, depois você deve digitar o CPF/CNPJ do processo que procura, e o intervalo do ano que procura em Período. Ao pressionar “Gerar Pdf” vai gerar um PDF do processo - mas também pode ter formatação errada (02005.000683/98-21). Você precisa também consultar a calculadora do NUP, com os 15 dígitos completos (02005.000683/1998), o resultado será o dígito verificador correto que está no num_processo_completo, o número 13.

As conexões e grafos da plataforma são então produzidos com o cruzamento das principais chaves de identificação – no caso aqui CPF, CNPJ e nome completo.

Essas bases dados são periodicamente atualizadas pelos órgãos públicos e também serão da mesma forma atualizadas no CruzaGrafos. O projeto também irá incluir outras bases de dados de interesse público e jornalístico. Os usuários receberão esse aviso e também essa metodologia será atualizada com esse esclarecimento.

Adiantamos, contudo, que não há nenhuma avaliação de mérito do conteúdo das bases de dados por parte do CruzaGrafos, da Abraji, do Brasil.IO ou dos profissionais envolvidos neste projeto. Nós apenas facilitamos o acesso a documentos públicos, conforme o Princípio da Publicidade (Art. 37, caput, CF/88) e respeitando as restrições do Art 5º, LX, da CF/88 e de legislação ordinária.

 

3. Estudos em bancos de dados e inovações técnicas

A equipe do projeto CruzaGrafos faz análise exploratória de dados em bases de dados de interesse público no Brasil. O trabalho foi feito por meio de pesquisas sobre portais de acesso a dados abertos no Brasil, conversas com especialistas e estudo das informações deixadas por um dos apoiadores do projeto, o jornalista Claudio Weber Abramo (1946-2018).

Catalogamos esses dados, suas características, linhas e colunas, e também estudamos sua viabilidade de uso com o software Metabase. Também foram estudados portais de dados públicos e APIs que podem facilitar a atualização das informações do projeto.

Esses estudos foram importantes para saber quais bancos de dados precisariam de limpeza de informações, quais informações são nomes de pessoas ou empresas, quais informações são IDs, quais informações podem ser usadas como chaves de cruzamento entre diferentes bancos de dados, quais bancos de dados são de real interesse público ou podem ser explorados nas demais fases do projeto, entre outros fatores.

As principais inovações em tecnologia de código no CruzaGrafos foram:

- (1) Centralizador de entidades: permite a busca de nomes, empresas, municípios, hospitais, contratos, etc., e nos dá o identificador universal único (UUID). As entidades podem ser: empresas, pessoas, multas, aplicativos etc. A falta de um UUID traz problemas como a necessidade de filtrar vários campos ao mesmo tempo (que mudam de conjunto de dados para conjunto de dados), dificuldade de pesquisar em mais de um conjunto de dados, dificuldade na geração de ID offline para consultas externas, entre outros

- (2) Backend do grafo: este é o "coração" do sistema, que se conecta ao sistema anterior para pesquisar e gerenciar consultas no banco de gráficos, API etc.

- (3) CruzaGrafos: aqui temos a "cola" de tudo e é a parte mais específica, é onde temos a integração com a autenticação do sistema de associados Abraji, onde temos os scripts que alimentar os dois sistemas acima e a interface que o usuário acessa.

Também realizamos outras ações de tecnologia, como:

- Processamento de dados (sócios de empresas brasileiras, CNPJs brasileiros - código único de identificação de empresas no Brasil -, atividades corporativas por CNPJ, candidaturas políticas, número do processo completo em autuações ambientais lavradas pelo Ibama, doações políticas, contratos de saúde, entre outras das principais bases a serem selecionadas para lançamento no futuro)

- Foram implantadas as funcionalidades Expandir nós vizinhos e Expandir nós vizinhos em até 2 graus que permite rapidamente expandir a visualização dos grafos de conexões entre pessoas e empresas – mostra os graus de conexão próximos

- Foi feita a funcionalidade "Salvar grafo", que será muito útil durante os testes - não só para facilitar a vida de quem está testando, mas também para nos ajudar a depurar em caso de erros

- Construímos uma solução para calcular o “caminho entre os objetos”, que calcula o caminho mais curto entre duas pessoas/empresas e mostra no grafo

- Adicionamos uma funcionalidade que não estava inicialmente planejada, mas que vai ajudar muito na usabilidade, após testes que fizemos internamente: navegar no histórico dos objetos (pessoas e empresas) pesquisados

 

4. Transparência

Todos os passos descritos na obtenção dos dados, checagens e o código fonte da plataforma também serão disponibilizados no GitHub. Caso você tenha identificado algum erro ou tenha sugestões, pedimos que você entre em contato no e-mail [email protected]

 
5. Cronograma e Atualizações

As atualizações das bases do Tribunal Superior Eleitoral, da Receita Federal do Brasil e do Ibama serão publicadas periodicamente na plataforma.

 

Também serão incluídas novas bases de dados e o usuários serão informados na própria plataforma e na nossa comunicação do projeto. 

 

Atenção: Consultamos milhões de dados da Receita Federal do Brasil, do Tribunal Superior Eleitoral e Ibama. Mas sempre indicamos que você confira na Receita Federal o CNPJ porque os dados de uma empresa podem mudar mais rápido do que nossa atualização. E da mesma forma é indicado consultar as autuações ambientais no sistema SEI (Sistema Eletrônico de Informações) do Ibama - conforme mostramos no ícone descrição (i) de cada autuação visualizada nos grafos.

 

 

Texto atualizado em 30/11/2021