Metodologia

1. Metodologia

O CruzaGrafos, lançado em 2020, é uma ferramenta gráfica de software livre para verificações cruzadas e investigações avançadas de dados, ao possibilitar ver relações em grafos. Com essa ferramenta, jornalistas podem analisar e expor relacionamentos entre diferentes entidades (pessoas e empresas), mesmo que elas apareçam em diferentes bancos de dados nos repositórios da Abraji (Associação Brasileira de Jornalismo Investigativo) e do Brasil.IO.

Essa iniciativa pretende catalogar, limpar e publicar grandes bancos de dados públicas, que no Brasil muitas vezes estão dispersas e publicados em formatos de difícil análise ou com enormes quantidades de informações.
As condições acima exigem muita pesquisa, catalogação, limpeza e análise, o que muitas vezes torna o trabalho jornalístico lento ou mesmo inviável em várias redações brasileiras.
Muitas das bases de dados foram originárias do trabalho de Claudio Weber Abramo, um pioneiro do jornalismo de dados no Brasil, falecido em agosto de 2018, que atuava em conjunto com o jornalista e ex-presidente da Abraji José Roberto de Toledo.
Os dados, quando reunidos, atualizados, limpos e organizados, permitem vários tipos de investigações e cruzamentos, com grafos, quadros, tabelas, tutoriais e arquivos para download. Todo o software desenvolvido para o projeto será disponibilizado para redações e particulares.
Este projeto visa auxiliar redações e jornalistas brasileiros, oferecendo mais conteúdo para que jornalistas e pesquisadores de dados façam análises exploratórias de dados com diferentes linguagens e ferramentas tecnológicas.
Isso pode ser feito com o uso de grafos. Na matemática a teoria dos grafos permite encontrar as relações entre os objetos de um determinado conjunto. Nesse caso, as relações entre vértices e arestas, que os grafos mostram, podem ser utilizadas para investigar grandes bancos de dados de forma visual e interativa.
Assim, relações entre empresas, políticos, pagamentos, obras públicas, pesquisas, entre tantas outras possibilidades, serão exploradas e visualizadas com o auxílio de grafos.
 
2. Amostra

Atualmente o CruzaGrafos tem dados de candidaturas eleitorais coletados no Tribunal Superior Eleitoral, com as informações gerais como ano da eleição, cargo, nome completo, nome urna, número sequencial no pleito, partido político, unidade eleitoral, unidade federativa e CPF completo do candidato.

E ainda dados da Receita Federal do Brasil sobre empresas com QSA (Quadro de Sócios e Administradores), com informações como nome fantasia, razão social, nomes completos dos sócios, CNPJ e o CPF mascarado dos sócios – a Receita e outras instituições públicas não publicam o conteúdo inteiro do CPF, de 11 dígitos, mas coloca asteriscos em alguns números, como nesse exemplo: ***.270.068-**

As conexões e grafos da plataforma são então produzidos com o cruzamento das principais chaves de identificação – no caso aqui CPF, CNPJ e nome completo.

Essas bases dados são periodicamente atualizadas pelos órgãos públicos e também serão da mesma forma atualizadas no CruzaGrafos. O projeto também irá incluir outras bases de dados de interesse público e jornalístico. Os usuários receberão esse aviso e também essa metodologia será atualizada com esse esclarecimento.

Adiantamos, contudo, que não há nenhuma avaliação de mérito do conteúdo das bases de dados por parte do CruzaGrafos, da Abraji, do Brasil.IO ou dos profissionais envolvidos neste projeto. Nós apenas facilitamos o acesso a documentos públicos, conforme o Princípio da Publicidade (Art. 37, caput, CF/88) e respeitando as restrições do Art 5º, LX, da CF/88 e de legislação ordinária.

 

3. Estudos em bancos de dados e inovações técnicas

A equipe do projeto CruzaGrafos faz análise exploratória de dados em bases de dados de interesse público no Brasil. O trabalho foi feito por meio de pesquisas sobre portais de acesso a dados abertos no Brasil, conversas com especialistas e estudo das informações deixadas por um dos apoiadores do projeto, o jornalista Claudio Weber Abramo (1946-2018).

Catalogamos esses dados, suas características, linhas e colunas, e também estudamos sua viabilidade de uso com o software Metabase. Também foram estudados portais de dados públicos e APIs que podem facilitar a atualização das informações do projeto.

Esses estudos foram importantes para saber quais bancos de dados precisariam de limpeza de informações, quais informações são nomes de pessoas ou empresas, quais informações são IDs, quais informações podem ser usadas como chaves de cruzamento entre diferentes bancos de dados, quais bancos de dados são de real interesse público ou podem ser explorados nas demais fases do projeto, entre outros fatores.

As principais inovações em tecnologia de código no CruzaGrafos foram:

- (1) Centralizador de entidades: permite a busca de nomes, empresas, municípios, hospitais, contratos, etc., e nos dá o identificador universal único (UUID). As entidades podem ser: empresas, pessoas, aplicativos etc. A falta de um UUID traz problemas como a necessidade de filtrar vários campos ao mesmo tempo (que mudam de conjunto de dados para conjunto de dados), dificuldade de pesquisar em mais de um conjunto de dados, dificuldade na geração de ID offline para consultas externas, entre outros

- (2) Backend do grafo: este é o "coração" do sistema, que se conecta ao sistema anterior para pesquisar e gerenciar consultas no banco de gráficos, API etc.

- (3) CruzaGrafos: aqui temos a "cola" de tudo e é a parte mais específica, é onde temos a integração com a autenticação do sistema de associados Abraji, onde temos os scripts que alimentar os dois sistemas acima e a interface que o usuário acessa.

Também realizamos outras ações de tecnologia, como:

- Processamento de dados (sócios de empresas brasileiras, CNPJs brasileiros - código único de identificação de empresas no Brasil -, atividades corporativas por CNPJ, candidaturas políticas, doações políticas, contratos de saúde, entre outras das principais bases a serem selecionadas para lançamento)

- Foram implantadas as funcionalidades Expandir nós vizinhos e Expandir nós vizinhos em até 2 graus que permite rapidamente expandir a visualização dos grafos de conexões entre pessoas e empresas – mostra os graus de conexão próximos

- Foi feita a funcionalidade "Salvar grafo", que será muito útil durante os testes - não só para facilitar a vida de quem está testando, mas também para nos ajudar a depurar em caso de erros

- Construímos uma solução para calcular o “caminho entre os objetos”, que calcula o caminho mais curto entre duas pessoas/empresas e mostra no grafo

- Adicionamos uma funcionalidade que não estava inicialmente planejada, mas que vai ajudar muito na usabilidade, após testes que fizemos internamente: navegar no histórico dos objetos (pessoas e empresas) pesquisados

 

4. Transparência

Todos os passos descritos na obtenção dos dados, checagens e o código fonte da plataforma também serão disponibilizados no GitHub. Caso você tenha identificado algum erro ou tenha sugestões, pedimos que você entre em contato no e-mail [email protected]

 
5. Cronograma e Atualizações

As atualizações das bases do Tribunal Superior Eleitoral e da Receita Federal do Brasil serão publicadas periodicamente na plataforma.

 

Também serão incluídas novas bases de dados e o usuários serão informados na própria plataforma e na nossa comunicação do projeto.