Metodologia
Texto atualizado em 18/04/2025
Introdução
O CruzaGrafos, lançado em 2020, é uma ferramenta gráfica de software livre para verificações cruzadas e investigações avançadas de dados, ao possibilitar ver relações em grafos. Com essa ferramenta, jornalistas podem analisar e expor relacionamentos entre diferentes entidades (pessoas, empresas e fiscalizações ambientais, e outras bases de dados no futuro), mesmo que elas apareçam em diferentes bancos de dados nos repositórios da Abraji (Associação Brasileira de Jornalismo Investigativo) e do Brasil.IO.
Essa iniciativa pretende catalogar, limpar, analisar e publicar grandes bancos de dados públicos, que no Brasil muitas vezes estão dispersos e publicados em formatos de difícil análise ou com enormes quantidades de informações.
As condições acima exigem muita pesquisa, catalogação, limpeza e análise, o que muitas vezes torna o trabalho jornalístico lento ou mesmo inviável em várias redações brasileiras.
Muitas das bases de dados foram originárias do trabalho de Claudio Weber Abramo, um pioneiro do jornalismo de dados no Brasil, falecido em agosto de 2018, que atuava em conjunto com o jornalista e ex-presidente da Abraji José Roberto de Toledo.
Os dados, quando reunidos, atualizados, limpos e organizados, permitem vários tipos de investigações e cruzamentos, com grafos, quadros, tabelas, tutoriais e arquivos para download. Todo o software desenvolvido para o projeto será disponibilizado para redações e particulares (a ser implantado ainda, sob demanda).
Este projeto visa auxiliar redações e jornalistas brasileiros, oferecendo mais conteúdo para que jornalistas e pesquisadores de dados façam análises exploratórias de dados com diferentes linguagens e ferramentas tecnológicas.
Isso pode ser feito com o uso de grafos. Na matemática a teoria dos grafos permite encontrar as relações entre os objetos de um determinado conjunto. Nesse caso, as relações entre vértices e arestas, que os grafos mostram, podem ser utilizadas para investigar grandes bancos de dados de forma visual e interativa.
Assim, relações entre empresas, políticos, pagamentos, obras públicas, pesquisas, entre tantas outras possibilidades, serão exploradas e visualizadas com o auxílio de grafos.
Bases de dados
O CruzaGrafos é composto de diversas bases de dados, de diferentes fontes. Abaixo, destacamos as principais. Veja também nossa página Sobre os dados para números de registros e links para as fontes específicas.
Empresas e sócios
O CruzaGrafos possui dados da Receita Federal do Brasil sobre empresas com QSA (Quadro de Sócios e Administradores), com informações como nome fantasia, razão social, nomes completos dos sócios, CNPJ e o CPF mascarado dos sócios – a Receita e outras instituições públicas não publicam o conteúdo inteiro do CPF, de 11 dígitos, mas coloca asteriscos em alguns números, como nesse exemplo: ***.270.068-**.
Em 2022 também foram incluídos a data de início de atividade, a natureza jurídica, a qualificação do sócio, o capital social declarado, o porte da empresa, se optou pelo Simples na Receita, se está inscrito como empresa MEI, o endereço da empresa, a Classificação Nacional de Atividades Econômicas e a situação cadastral atual.
Dados eleitorais
Atualmente o CruzaGrafos tem dados de candidaturas eleitorais coletados no Tribunal Superior Eleitoral, com as informações gerais como ano da eleição, cargo, nome completo, nome urna, CPF, data de nascimento, etnia declarada, grau de instrução, naturalidade, nome completo, ocupação e, título eleitoral são algumas das informações que passam a constar na ficha, apresentada no lado direito dos grafos. Existem informações das eleições entre 2014 e 2024.
Também são exibidos os bens declarados por candidatos, desde as eleições de 2014. Uma pessoa pode ter sido candidata em diversos pleitos, que vão aparecer em cada nó do grafo. Então se você clicar em cada nó de uma eleição, o usuário poderá ter acesso ao item “Bens declarados”, exibido do lado direito da tela. Basta clicar no item para ser redirecionado para a lista de bens - uma janela será aberta.
Ainda sobre as candidturas de 2024, o TSE retirou o número de CPF dos candidatos das informações que divulga no Portal de Dados Abertos e também nas certidões dos candidatos no Portal de Divulgação de Candidaturas e Contas Eleitorais (DivulgaCandContas). Isso foi um retrocesso em transparência que dificultou muito a criação do banco de dados de 2024. Mas nos dados de candidatos ainda existe o número de título de eleitor - e em 2024 o TSE também divulgou a base de dados de filiação partidária, que possui título de eleitor e CPF. Com esse novo cruzamento foi possível encontrar o CPF da grande maioria dos candidatos. Porém, 5.564 CPFs de 2024 não foram encontrados porque não estavam nos dados de filiação partidária - estes não foram incluídos no CruzaGrafos. No caso de candidatos não encontrados orientamentamos que as informações básicas do candidato devem ser procuradas no Divulgacand.
Dívida Ativa da União
O CruzaGrafos também tem a Lista de devedores Dívida Ativa da União e do FGTS. A fonte que consultamos para download dos dados e disponibilização é o site de Dados Abertos, que a PGFN (Procuradoria-Geral da Fazenda Nacional) periodicamente atualiza.
Aqui algumas informações que podem ajudar a você entender melhor as informações:
CPF_CNPJ
: Número identificador do contribuinte no cadastro de pessoas físicas ou no cadastro nacional de pessoas jurídicasDATA_INSCRICAO
: data em que o crédito foi inscrito em dívida ativaENTIDADE_RESPONSAVEL
: indica se o débito de FGTS está sendo cobrado pela PGFN ou pela Caixa Econômica FederalINDICADOR_AJUIZADO
: indica se o crédito está sendo cobrado judicialmenteNOME_DEVEDOR
: nome do devedorNUMERO_INSCRICAO
: número da inscrição em dívida ativaRECEITA_PRINCIPAL
: receita do crédito que está sendo cobradoSITUACAO_INSCRICAO
: situação da inscrição no sistema de controle de créditosTIPO_DEVEDOR
: indica se o devedor é principal (titular original da dívida) ou corresponsável (foi vinculado posteriormente à dívida)TIPO_PESSOA
: indica se é uma pessoa física ou jurídicaTIPO_SITUACAO_INSCRICAO
: indica se a inscrição está em cobrança (situação irregular), em benefício fiscal (em parcelamento ou moratória), em negociação, suspenso por decisão judical, garantia (integralmente garantida)UF_UNIDADE_RESPONSAVEL
: unidade federativa da unidade da PGFN responsável pela cobrança do devedorUNIDADE_INSCRICAO
: indica a unidade da PGFN que realizou a inscrição em dívida ativaUNIDADE_RESPONSAVEL
: unidade da PGFN responsável pelo acompanhamento do devedorVALOR_CONSOLIDADO
: valor do débito na data de extração, com acréscimos legais
O CruzaGrafos atualiza suas informações a cada três meses mais ou menos, então para checar se as informações ainda são as mesmas ou se mudaram é importante fazer a checagem final nos sites oficiais da PGFN.
No repositório "dados abertos" constam todos os débitos dos contribuintes inscritos em dívida ativa da União, qualquer que seja a situação atual do débito (se em cobrança, com exigibilidade ativa ou se com alguma hipótese de suspensão da exigibilidade, como o parcelamento dos débitos), conforme previsão do art. 7º, da Portaria PGFN nº 636, de 09 de janeiro de 2020. É exatamente a informação que consta no site:
"Descrição: conjunto de informações sobre débitos com a Fazenda Nacional ou o FGTS inscritos em Dívida Ativa, em todas as situações, incluindo seus devedores, na condição de devedor principal, corresponsável ou solidário, atualizada trimestralmente".
E no site da "lista de devedores" contém apenas os débitos exigíveis, ou seja, aqueles que estão em situação irregular, conforme previsão do art. 2º, da Portaria PGFN nº 636, de 09 de janeiro de 2020. É exatamente a informação contida neste outro site:
"Na Lista de Devedores, você pode consultar os contribuintes que estão inscritos em dívida ativa da União e do FGTS, na condição de devedor principal, corresponsável ou solidário. Importante destacar que não estão incluídos na lista os débitos parcelados, garantidos ou com exigibilidade suspensa."
Sendo assim, enquanto que na "lista de devedores" constam apenas os débitos em situação irregular, em outras palavras, os plenamente exigíveis; no "dados abertos" constam todos os débitos, em qualquer situação, tantos os irregulares como os regulares, ou seja, tanto os exigíveis como aqueles com a exigibilidade suspensa. Por isso, a divergência dos valores deve sempre observar a seguinte lógica: "dados abertos" ≥ "lista de devedores".
Não é demais lembrar que está franqueado a qualquer cidadão o acesso a informações e documentos através da Lei de Acesso à Informação (Lei nº 12.527/2011).
As conexões e grafos da plataforma são então produzidos com o cruzamento das principais chaves de identificação – no caso aqui CPF, CNPJ e nome completo.
Essas bases dados são periodicamente atualizadas pelos órgãos públicos e também serão da mesma forma atualizadas no CruzaGrafos. O projeto também irá incluir outras bases de dados de interesse público e jornalístico. Os usuários receberão esse aviso e também essa metodologia será atualizada com esse esclarecimento.
Adiantamos, contudo, que não há nenhuma avaliação de mérito do conteúdo das bases de dados por parte do CruzaGrafos, da Abraji, do Brasil.IO ou dos profissionais envolvidos neste projeto. Nós apenas facilitamos o acesso a documentos públicos, conforme o Princípio da Publicidade (Art. 37, caput, CF/88) e respeitando as restrições do Art 5º, LX, da CF/88 e de legislação ordinária.
Dados Geoespaciais
O CruzaGrafos possui um tipo de objeto chamado "Fiscalização ambiental", que representa uma fiscalização de um órgão oficial, referente a uma infração ambiental. Esse objeto tem relação com a pessoa física ou jurídica responsável pela infração. Os dados são oriundos de 4 bases abertas:
Um auto de infração é um documento oficial que registra a constatação de uma infração à lei, geralmente emitida por um órgão de fiscalização ou autoridade competente. Ele formaliza a violação, detalha os fatos e inicia um processo administrativo para a aplicação de sanções ou penalidades. Um embargo é uma sanção ou medida administrativa que busca impedir ou interromper uma atividade ambientalmente prejudicial, como o desmatamento.
Para cara registro publicado nas bases acima, foram extraídas as seguintes informações:
- Órgão de origem
- Tipo de registro (Auto de Infração ou Embargo)
- Tipo de infração (ex: desmatamento, queimada etc.)
- Identificador único (sequência de números e letras que, dentro da base de dados em questão, identifica de maneira única aquela ocorrência/registro)
- Data (da ocorrência e/ou cadastro no sistema)
- Número do processo administrativo relacionado
- Situação
- Descrição e/ou fundamentação
- Município e UF
- Bioma e/ou unidade de conservação afetado(a)
- Valor da multa (válido apenas para autos de infração)
- Documento do Infrator (CPF ou CNPJ)
- Nome do infrator (nome completo ou razão social)
- Dados geoespaciais (em alguns casos, apenas a latitude/longitude de um ponto; em outros, um polígono)
Vale notar que essa lista não contempla todos os dados disponíveis e, para algumas bases, nem todas essas informações estarão preenchidas. O(a) usuário(a) do CruzaGrafos é convidado a buscar mais informações diretamente nos sites dos órgãos - em alguns casos, é necessário baixar a base de dados completa, pois nem todos os órgãos disponibilizam sistemas de busca/filtro. Além dos dados originalmente extraídos das bases originais, executamos o cálculo da área de cada polígono (em hectares), que é exibida na interface.
Com o objetivo de contextualizar melhor o que se vê no mapa, além dos dados de fiscalização, o mapa também exibe:
- Alertas de desmatamento emitidos pelo Mapbiomas
- Terras indígenas, disponibilizadas pela Funai
- Unidades de Conservação, disponibilizadas pelo ICMBio
Os polígonos de terras indígenas e unidades de conservação são exibidos no mapa como "Áreas de preservação".
Para que a plataforma possa exibir os polígonos referentes às 3 bases acima, as seguintes informações são coletadas:
- Tipo de polígono (desmatamento, unidade de conservação, terra indígena)
- Identificador único (sequência de números e letras que, dentro da base de dados em questão, identifica de maneira única aquele registro)
- Nome (não é coletado para alerta de desmatamento)
- Data da ocorrência/criação da unidade
- Localidade (município, UF e bioma, quando disponíveis)
- Dados geoespaciais
Assim como nos registros de fiscalização, executamos o cálculo da área de cada polígono (em hectares), que é exibida na interface. Para os polígonos de desmatamento do Mapbiomas Alerta, a interface mostra um link externo que dá acesso ao laudo gerado para aquela ocorrência.
Links para outras bases
Além disso existem links para outros bancos de dados dentro do CruzaGrafos, a partir de informações como nome completo, CNPJ, CPF e endereço físico de empresas:
- Google Maps: a partir do endereço cadastrado na Receita, o CruzaGrafos passa a disponibilizar na ficha das empresas o link direto que dá acesso ao para abrir o endereço no Google Maps. É iImportante pontuar que pode acontecer de o endereço não estar atualizado na Receita ou a imagem no Google Maps também estar desatualizada ou não cadastrada. Então, vale uma checagem
- Portal da Transparência: passa a existir nas fichas de pessoas físicas e de pessoas jurídicas um link direto para o Portal da Transparência, do governo federal. Então, se o CPF ou CNPJ tiver pagamentos, contratos, sanções e outras informações com o governo federal, será mostrado o link. Caso o CPF ou CNPJ não tiver relações, o link mostrará “"A página não foi encontrada”"
- Publique-se: um outro projeto da Abraji para auxiliar investigações é o Publique-se, que é um banco de dados de processos judiciais de interesse público que têm políticos como partes. Então se o candidato listado no CruzaGrafos também estiver na base do Publique-se, será mostrado o link direto para a página dos processos judiciais nos quais o candidato foi citado.
- DivulgaCandContas: cada candidato no Brasil tem um link direto no portal do TSE com informações das campanhas eleitorais, apresentada no site DivulgaCandContas. Essas páginas podem trazer informações que ainda não foram cadastradas no CruzaGrafos, - como os doadores de campanha. Esse link direto está disponível na ficha dos candidatos no CruzaGrafos, no lado direito da página, para cada ano de candidatura, respectiva.
Estudos em bancos de dados e inovações técnicas
A equipe do projeto CruzaGrafos faz análise exploratória de dados em bases de dados de interesse público no Brasil. O trabalho foi feito por meio de pesquisas sobre portais de acesso a dados abertos no Brasil, conversas com especialistas e estudo das informações deixadas por um dos apoiadores do projeto, o jornalista Claudio Weber Abramo (1946-2018).
Catalogamos esses dados, suas características, linhas e colunas, e também estudamos sua viabilidade de uso com o software Metabase. Também foram estudados portais de dados públicos e APIs que podem facilitar a atualização das informações do projeto.
Esses estudos foram importantes para saber quais bancos de dados precisariam de limpeza de informações, quais informações são nomes de pessoas ou empresas, quais informações são IDs, quais informações podem ser usadas como chaves de cruzamento entre diferentes bancos de dados, quais bancos de dados são de real interesse público ou podem ser explorados nas demais fases do projeto, entre outros fatores.
As principais inovações em tecnologia de código no CruzaGrafos foram:
- Centralizador de entidades: permite a busca de nomes, empresas, municípios, hospitais, contratos, etc., e nos dá o identificador universal único (UUID). As entidades podem ser: empresas, pessoas, multas, aplicativos etc. A falta de um UUID traz problemas como a necessidade de filtrar vários campos ao mesmo tempo (que mudam de conjunto de dados para conjunto de dados), dificuldade de pesquisar em mais de um conjunto de dados, dificuldade na geração de ID offline para consultas externas, entre outros. Foi utilizada a metodologia URLid para a criação dos identificadores do objeto no grafo.
- Backend do grafo: este é o "coração" do sistema, que se conecta ao sistema anterior para pesquisar e gerenciar consultas no banco de gráficos, API etc.
- CruzaGrafos: aqui temos a "cola" de tudo e é a parte mais específica, é onde temos a integração com a autenticação do sistema de associados Abraji, onde temos os scripts que alimentar os dois sistemas acima e a interface que o usuário acessa.
Também realizamos outras ações de tecnologia, como:
- Processamento de dados (sócios de empresas brasileiras, CNPJs brasileiros - código único de identificação de empresas no Brasil -, atividades corporativas por CNPJ, candidaturas políticas, doações políticas, contratos de saúde, entre outras das principais bases a serem selecionadas para lançamento no futuro)
- Foram implantadas as funcionalidades Expandir nós vizinhos e Expandir nós vizinhos em até 2 graus que permite rapidamente expandir a visualização dos grafos de conexões entre pessoas e empresas – mostra os graus de conexão próximos
- Foi feita a funcionalidade "Salvar grafo", que será muito útil durante os testes - não só para facilitar a vida de quem está testando, mas também para nos ajudar a depurar em caso de erros
- Construímos uma solução para calcular o “caminho entre os objetos”, que calcula o caminho mais curto entre duas pessoas/empresas e mostra no grafo
- Adicionamos uma funcionalidade que não estava inicialmente planejada, mas que vai ajudar muito na usabilidade, após testes que fizemos internamente: navegar no histórico dos objetos (pessoas e empresas) pesquisados
Transparência
Todos os passos descritos na obtenção dos dados, checagens e o código fonte da plataforma também serão disponibilizados no GitHub. Caso você tenha identificado algum erro ou tenha sugestões, pedimos que você entre em contato no e-mail [email protected]
Cronograma e Atualizações
As atualizações das bases do Tribunal Superior Eleitoral, da Receita Federal do Brasil e do Ibama serão publicadas periodicamente na plataforma. Também serão incluídas novas bases de dados e o usuários serão informados na própria plataforma e na nossa comunicação do projeto.
Atenção: consultamos milhões de dados da Receita Federal do Brasil, do Tribunal Superior Eleitoral e Ibama. Mas sempre indicamos que você confira na Receita Federal o CNPJ porque os dados de uma empresa podem mudar mais rápido do que nossa atualização.