Metodologia


Texto atualizado em 18/04/2025

Introdução

O CruzaGrafos, lançado em 2020, é uma ferramenta gráfica de software livre para verificações cruzadas e investigações avançadas de dados, ao possibilitar ver relações em grafos. Com essa ferramenta, jornalistas podem analisar e expor relacionamentos entre diferentes entidades (pessoas, empresas e fiscalizações ambientais, e outras bases de dados no futuro), mesmo que elas apareçam em diferentes bancos de dados nos repositórios da Abraji (Associação Brasileira de Jornalismo Investigativo) e do Brasil.IO.

Essa iniciativa pretende catalogar, limpar, analisar e publicar grandes bancos de dados públicos, que no Brasil muitas vezes estão dispersos e publicados em formatos de difícil análise ou com enormes quantidades de informações.

As condições acima exigem muita pesquisa, catalogação, limpeza e análise, o que muitas vezes torna o trabalho jornalístico lento ou mesmo inviável em várias redações brasileiras.

Muitas das bases de dados foram originárias do trabalho de Claudio Weber Abramo, um pioneiro do jornalismo de dados no Brasil, falecido em agosto de 2018, que atuava em conjunto com o jornalista e ex-presidente da Abraji José Roberto de Toledo.

Os dados, quando reunidos, atualizados, limpos e organizados, permitem vários tipos de investigações e cruzamentos, com grafos, quadros, tabelas, tutoriais e arquivos para download. Todo o software desenvolvido para o projeto será disponibilizado para redações e particulares (a ser implantado ainda, sob demanda).

Este projeto visa auxiliar redações e jornalistas brasileiros, oferecendo mais conteúdo para que jornalistas e pesquisadores de dados façam análises exploratórias de dados com diferentes linguagens e ferramentas tecnológicas.

Isso pode ser feito com o uso de grafos. Na matemática a teoria dos grafos permite encontrar as relações entre os objetos de um determinado conjunto. Nesse caso, as relações entre vértices e arestas, que os grafos mostram, podem ser utilizadas para investigar grandes bancos de dados de forma visual e interativa.

Assim, relações entre empresas, políticos, pagamentos, obras públicas, pesquisas, entre tantas outras possibilidades, serão exploradas e visualizadas com o auxílio de grafos.

 

Bases de dados

O CruzaGrafos é composto de diversas bases de dados, de diferentes fontes. Abaixo, destacamos as principais. Veja também nossa página Sobre os dados para números de registros e links para as fontes específicas.

Empresas e sócios

O CruzaGrafos possui dados da Receita Federal do Brasil sobre empresas com QSA (Quadro de Sócios e Administradores), com informações como nome fantasia, razão social, nomes completos dos sócios, CNPJ e o CPF mascarado dos sócios – a Receita e outras instituições públicas não publicam o conteúdo inteiro do CPF, de 11 dígitos, mas coloca asteriscos em alguns números, como nesse exemplo: ***.270.068-**.

Em 2022 também foram incluídos a data de início de atividade, a natureza jurídica, a  qualificação do sócio, o capital social declarado, o porte da empresa, se optou pelo Simples na Receita, se está inscrito como empresa MEI, o endereço da empresa, a Classificação Nacional de Atividades Econômicas e a situação cadastral atual.

Dados eleitorais

Atualmente o CruzaGrafos tem dados de candidaturas eleitorais coletados no Tribunal Superior Eleitoral, com as informações gerais como ano da eleição, cargo, nome completo, nome urna, CPF, data de nascimento, etnia declarada, grau de instrução, naturalidade, nome completo, ocupação e, título eleitoral são algumas das informações que passam a constar na ficha, apresentada no lado direito dos grafos. Existem informações das eleições entre 2014 e 2024. 

Também são exibidos os bens declarados por candidatos, desde as eleições de 2014. Uma pessoa pode ter sido candidata em diversos pleitos, que vão aparecer em cada nó do grafo. Então se você clicar em cada nó de uma eleição, o usuário poderá ter acesso ao item “Bens declarados”, exibido do lado direito da tela. Basta clicar no item para ser redirecionado para a lista de bens - uma janela será aberta. 

Ainda sobre as candidturas de 2024, o TSE retirou o número de CPF dos candidatos das informações que divulga no Portal de Dados Abertos e também nas certidões dos candidatos no Portal de Divulgação de Candidaturas e Contas Eleitorais (DivulgaCandContas). Isso foi um retrocesso em transparência que dificultou muito a criação do banco de dados de 2024. Mas nos dados de candidatos ainda existe o número de título de eleitor - e em 2024 o TSE também divulgou a base de dados de filiação partidária, que possui título de eleitor e CPF. Com esse novo cruzamento foi possível encontrar o CPF da grande maioria dos candidatos. Porém, 5.564 CPFs de 2024 não foram encontrados porque não estavam nos dados de filiação partidária - estes não foram incluídos no CruzaGrafos. No caso de candidatos não encontrados orientamentamos que as informações básicas do candidato devem ser procuradas no Divulgacand.

Dívida Ativa da União

O CruzaGrafos também tem a Lista de devedores Dívida Ativa da União e do FGTS. A fonte que consultamos para download dos dados e disponibilização é o site de Dados Abertos, que a PGFN (Procuradoria-Geral da Fazenda Nacional) periodicamente atualiza.

Aqui algumas informações que podem ajudar a você entender melhor as informações:

O CruzaGrafos atualiza suas informações a cada três meses mais ou menos, então para checar se as informações ainda são as mesmas ou se mudaram é importante fazer a checagem final nos sites oficiais da PGFN.

No repositório "dados abertos" constam todos os débitos dos contribuintes inscritos em dívida ativa da União, qualquer que seja a situação atual do débito (se em cobrança, com exigibilidade ativa ou se com alguma hipótese de suspensão da exigibilidade, como o parcelamento dos débitos), conforme previsão do art. 7º, da Portaria PGFN nº 636, de 09 de janeiro de 2020. É exatamente a informação que consta no site:

"Descrição: conjunto de informações sobre débitos com a Fazenda Nacional ou o FGTS inscritos em Dívida Ativa, em todas as situações, incluindo seus devedores, na condição de devedor principal, corresponsável ou solidário, atualizada trimestralmente".

E no site da "lista de devedores" contém apenas os débitos exigíveis, ou seja, aqueles que estão em situação irregular, conforme previsão do art. 2º, da Portaria PGFN nº 636, de 09 de janeiro de 2020. É exatamente a informação contida neste outro site:

"Na Lista de Devedores, você pode consultar os contribuintes que estão inscritos em dívida ativa da União e do FGTS, na condição de devedor principal, corresponsável ou solidário. Importante destacar que não estão incluídos na lista os débitos parcelados, garantidos ou com exigibilidade suspensa." 

Sendo assim, enquanto que na "lista de devedores" constam apenas os débitos em situação irregular, em outras palavras, os plenamente exigíveis; no "dados abertos" constam todos os débitos, em qualquer situação, tantos os irregulares como os regulares, ou seja, tanto os exigíveis como aqueles com a exigibilidade suspensa. Por isso, a divergência dos valores deve sempre observar a seguinte lógica: "dados abertos" ≥ "lista de devedores".

Não é demais lembrar que está franqueado a qualquer cidadão o acesso a informações e documentos através da Lei de Acesso à Informação (Lei nº 12.527/2011).

As conexões e grafos da plataforma são então produzidos com o cruzamento das principais chaves de identificação – no caso aqui CPF, CNPJ e nome completo.

Essas bases dados são periodicamente atualizadas pelos órgãos públicos e também serão da mesma forma atualizadas no CruzaGrafos. O projeto também irá incluir outras bases de dados de interesse público e jornalístico. Os usuários receberão esse aviso e também essa metodologia será atualizada com esse esclarecimento.

Adiantamos, contudo, que não há nenhuma avaliação de mérito do conteúdo das bases de dados por parte do CruzaGrafos, da Abraji, do Brasil.IO ou dos profissionais envolvidos neste projeto. Nós apenas facilitamos o acesso a documentos públicos, conforme o Princípio da Publicidade (Art. 37, caput, CF/88) e respeitando as restrições do Art 5º, LX, da CF/88 e de legislação ordinária.

Dados Geoespaciais

O CruzaGrafos possui um tipo de objeto chamado "Fiscalização ambiental", que representa uma fiscalização de um órgão oficial, referente a uma infração ambiental. Esse objeto tem relação com a pessoa física ou jurídica responsável pela infração. Os dados são oriundos de 4 bases abertas:

Um auto de infração é um documento oficial que registra a constatação de uma infração à lei, geralmente emitida por um órgão de fiscalização ou autoridade competente. Ele formaliza a violação, detalha os fatos e inicia um processo administrativo para a aplicação de sanções ou penalidades. Um embargo é uma sanção ou medida administrativa que busca impedir ou interromper uma atividade ambientalmente prejudicial, como o desmatamento.

Para cara registro publicado nas bases acima, foram extraídas as seguintes informações:

Vale notar que essa lista não contempla todos os dados disponíveis e, para algumas bases, nem todas essas informações estarão preenchidas. O(a) usuário(a) do CruzaGrafos é convidado a buscar mais informações diretamente nos sites dos órgãos - em alguns casos, é necessário baixar a base de dados completa, pois nem todos os órgãos disponibilizam sistemas de busca/filtro. Além dos dados originalmente extraídos das bases originais, executamos o cálculo da área de cada polígono (em hectares), que é exibida na interface.

Com o objetivo de contextualizar melhor o que se vê no mapa, além dos dados de fiscalização, o mapa também exibe:

Os polígonos de terras indígenas e unidades de conservação são exibidos no mapa como "Áreas de preservação".

Para que a plataforma possa exibir os polígonos referentes às 3 bases acima, as seguintes informações são coletadas:

Assim como nos registros de fiscalização, executamos o cálculo da área de cada polígono (em hectares), que é exibida na interface. Para os polígonos de desmatamento do Mapbiomas Alerta, a interface mostra um link externo que dá acesso ao laudo gerado para aquela ocorrência.

Links para outras bases

Além disso existem links para outros bancos de dados dentro do CruzaGrafos, a partir de informações como nome completo, CNPJ, CPF e endereço físico de empresas:

Estudos em bancos de dados e inovações técnicas

A equipe do projeto CruzaGrafos faz análise exploratória de dados em bases de dados de interesse público no Brasil. O trabalho foi feito por meio de pesquisas sobre portais de acesso a dados abertos no Brasil, conversas com especialistas e estudo das informações deixadas por um dos apoiadores do projeto, o jornalista Claudio Weber Abramo (1946-2018).

Catalogamos esses dados, suas características, linhas e colunas, e também estudamos sua viabilidade de uso com o software Metabase. Também foram estudados portais de dados públicos e APIs que podem facilitar a atualização das informações do projeto.

Esses estudos foram importantes para saber quais bancos de dados precisariam de limpeza de informações, quais informações são nomes de pessoas ou empresas, quais informações são IDs, quais informações podem ser usadas como chaves de cruzamento entre diferentes bancos de dados, quais bancos de dados são de real interesse público ou podem ser explorados nas demais fases do projeto, entre outros fatores.

As principais inovações em tecnologia de código no CruzaGrafos foram:

Também realizamos outras ações de tecnologia, como:

Transparência

Todos os passos descritos na obtenção dos dados, checagens e o código fonte da plataforma também serão disponibilizados no GitHub. Caso você tenha identificado algum erro ou tenha sugestões, pedimos que você entre em contato no e-mail [email protected]

Cronograma e Atualizações

As atualizações das bases do Tribunal Superior Eleitoral, da Receita Federal do Brasil e do Ibama serão publicadas periodicamente na plataforma. Também serão incluídas novas bases de dados e o usuários serão informados na própria plataforma e na nossa comunicação do projeto. 

Atenção: consultamos milhões de dados da Receita Federal do Brasil, do Tribunal Superior Eleitoral e Ibama. Mas sempre indicamos que você confira na Receita Federal o CNPJ porque os dados de uma empresa podem mudar mais rápido do que nossa atualização.