Metodologia
1. Metodologia
O CruzaGrafos, lançado em 2020, é uma ferramenta gráfica de software livre para verificações cruzadas e investigações avançadas de dados, ao possibilitar ver relações em grafos. Com essa ferramenta, jornalistas podem analisar e expor relacionamentos entre diferentes entidades (pessoas, empresas e autuações ambientais, e outras bases de dados no futuro), mesmo que elas apareçam em diferentes bancos de dados nos repositórios da Abraji (Associação Brasileira de Jornalismo Investigativo) e do Brasil.IO.
Essa iniciativa pretende catalogar, limpar, analisar e publicar grandes bancos de dados públicos, que no Brasil muitas vezes estão dispersos e publicados em formatos de difícil análise ou com enormes quantidades de informações.
As condições acima exigem muita pesquisa, catalogação, limpeza e análise, o que muitas vezes torna o trabalho jornalístico lento ou mesmo inviável em várias redações brasileiras.
Muitas das bases de dados foram originárias do trabalho de Claudio Weber Abramo, um pioneiro do jornalismo de dados no Brasil, falecido em agosto de 2018, que atuava em conjunto com o jornalista e ex-presidente da Abraji José Roberto de Toledo.
Os dados, quando reunidos, atualizados, limpos e organizados, permitem vários tipos de investigações e cruzamentos, com grafos, quadros, tabelas, tutoriais e arquivos para download. Todo o software desenvolvido para o projeto será disponibilizado para redações e particulares (a ser implantado ainda, sob demanda).
Este projeto visa auxiliar redações e jornalistas brasileiros, oferecendo mais conteúdo para que jornalistas e pesquisadores de dados façam análises exploratórias de dados com diferentes linguagens e ferramentas tecnológicas.
Isso pode ser feito com o uso de grafos. Na matemática a teoria dos grafos permite encontrar as relações entre os objetos de um determinado conjunto. Nesse caso, as relações entre vértices e arestas, que os grafos mostram, podem ser utilizadas para investigar grandes bancos de dados de forma visual e interativa.
Assim, relações entre empresas, políticos, pagamentos, obras públicas, pesquisas, entre tantas outras possibilidades, serão exploradas e visualizadas com o auxílio de grafos.
2. Amostra
Atualmente o CruzaGrafos tem dados de candidaturas eleitorais coletados no Tribunal Superior Eleitoral, com as informações gerais como ano da eleição, cargo, nome completo, nome urna, CPF, data de nascimento, etnia declarada, grau de instrução, naturalidade, nome completo, ocupação e, título eleitoral são algumas das informações que passam a constar na ficha, apresentada no lado direito dos grafos. Existem informações das eleições entre 2014 e 2022.
Sobre os dados do TSE o CruzaGrafos também mostra os bens declarados por candidatos, desde as eleições de 2014. Uma pessoa pode ter sido candidata em diversos pleitos, que vão aparecer em cada nó do grafo. Então se você clicar em cada nó de uma eleição, o usuário poderá ter acesso ao item “Bens declarados”, exibido do lado direito da tela. Basta clicar no item para ser redirecionado para a lista de bens - uma janela será aberta.
E ainda dados da Receita Federal do Brasil sobre empresas com QSA (Quadro de Sócios e Administradores), com informações como nome fantasia, razão social, nomes completos dos sócios, CNPJ e o CPF mascarado dos sócios – a Receita e outras instituições públicas não publicam o conteúdo inteiro do CPF, de 11 dígitos, mas coloca asteriscos em alguns números, como nesse exemplo: ***.270.068-**
Sobre os dados da Receita ainda, em 2022 também foram incluídos a data de início de atividade, a natureza jurídica,a qualificação do sócio, o capital social declarado, o porte da empresa, se optou pelo Simples na Receita, se está inscrito como empresa MEI, o endereço da empresa, a Classificação Nacional de Atividades Econômicas e a situação cadastral atual.
Além disso existem links para outros bancos de dados dentro do CruzaGrafos, a partir de informações como nome completo, CNPJ, CPF e endereço físico de empresas:
+ Abre o Google Maps - a partir do endereço cadastrado na Receita, o CruzaGrafos passa a disponibilizar na ficha das empresas o link direto que dá acesso ao para abrir o endereço no Google Maps. É iImportante pontuar que pode acontecer de o endereço não estar atualizado na Receita ou a imagem no Google Maps também estar desatualizada ou não cadastrada. Então, vale uma checagem
+ Portal da Transparência - passa a existir nas fichas de pessoas físicas e de pessoas jurídicas um link direto para o Portal da Transparência, do governo federal. Então, se o CPF ou CNPJ tiver pagamentos, contratos, sanções e outras informações com o governo federal, será mostrado o link. Caso o CPF ou CNPJ não tiver relações, o link mostrará “"A página não foi encontrada”"
+ Link para o Publique-se - um outro projeto da Abraji para auxiliar investigações é o Publique-se, que é um banco de dados de processos judiciais de interesse público que têm políticos como partes. Então se o candidato listado no CruzaGrafos também estiver na base do Publique-se, será mostrado o link direto para a página dos processos judiciais nos quais o candidato foi citado.
+ Divulgacand - cada candidato no Brasil tem um link direto no portal do TSE com informações das campanhas eleitorais, apresentada no site Divulgacand. Essas páginas podem trazer informações que ainda não foram cadastradas no CruzaGrafos, - como os doadores de campanha. Esse link direto está disponível na ficha dos candidatos no CruzaGrafos, no lado direito da página, para cada ano de candidatura, respectiva.
E também o projeto possui as autuações ambientais lavradas pelo Ibama (Instituto Brasileiro do Meio Ambiente e dos Recursos Naturais Renováveis), que podem ser cruzadas por nome, CPF e CNPJ. Especificamente sobre esses dados foram necessários vários passos de limpeza e análise.
Os dados dessa análise foram baixados do Portal de Dados Abertos do Ibama, porém os mesmos dados também estão disponíveis para consulta em um sistema chamado Consulta de Autuações Ambientais e Embargos no qual também há informações referentes aos autos que constam na tabela auto_infracao. Nele, além de dados que já constam na tabela, há também outros como o CPF completo do infrator e o status do débito.
O total de registros disponíveis em ambos também diverge. Para efetuar o download completo de dados no segundo sistema seria necessário desenvolver e executar um robô que baixe os dados para todas as UFs/anos disponíveis e, por isso, decidimos seguir pelos dados disponíveis no Portal de Dados Abertos do Ibama.
Alguns CSVs disponíveis no portal de dados abertos do Ibama possuem erros de estrutura, em que registros aparecem com números variados de colunas. Diversos registros (em várias tabelas) possuem erros de digitação ou valores equivalentes a nulo, como CPF/CNPJ e nome do infrator na tabela auto_infracao.
A equipe do CruzaGrafos então fez em 2021 várias reuniões com técnicos do Ibama para tentar entender melhor esses erros e encontrar uma forma de criar uma base de dados mais segura e eliminar suspeitas ou erros claros. Os dados então foram limpos e criado uma nova coluna, num_processo_completo, que é o número do processo completo nos bancos de dados do Ibama, com dígitos verificadores recalculados e formatação correta. O num_processo_completo pode ser encontrado depois no sistema SEI (Sistema Eletrônico de Informações) do Ibama - conforme mostramos no ícone descrição (i) de cada autuação visualizada nos grafos.
Todos os processos são registrados no SEI do Ibama (autos de infração ou embargos). A equipe do CruzaGrafos fez um programa que formata os números de processo de acordo com o padrão do NUP - Número Único de Protocolo. Isso foi necessário porque senão não seria possível associarmos o mesmo processo a pessoas diferentes, dado que para alguns registros no Ibama mais antigos o número do processo vem sem formatação. Atualmente os processsos mais recentes do Ibama já tem um nova formatação mais segura (com 4 dígitos, com 2 dígitos verificadores e formatados). Neste site há uma calculadora dos dígitos verificadores do NUP.
Para checar as informações sobre cada autuação e atualizar informações mais recentes, você deve consultar o sistema SEI (Sistema Eletrônico de Informações) do Ibama, com a digitação do num_processo_completo. Porém o sistema de busca do SEI tem algumas falhas, veja algumas dicas:
- Há processos como estes que aparecem facilmente, com a digitação de todos os dígitos (02001.012562/2021-54), ou (02022.000630/2012-01)
- Outros como o (02024.005680/2001-02) você não encontra se digitar inteiro. Uma possibilidade é procurar pelo número do órgão + número sequencial (02024.005680). Aí você tem que verificar na lista de encontrados qual tem o ano certo (2001), e depois se este processo corresponde à mesma empresa/pessoa ré no processo. Mas vale ressaltar que o dígito verificador no SEI no Ibama pode ser diferente também (02 e no SEI está 88), isso pode significar que o dígito verificador foi criado de forma incorreta pelo Ibama. Você pode checar o dígito verificador neste site de calculadora. Por exemplo, se colocar no site da calculadora o valor inicial de 15 dígitos (02024.005680/2001), o DV gerado foi 02. Então provavelmente o dado de código está incorreto no SEI, mas se trata do mesmo processo.
- Também há ainda casos em que a busca do SEI não encontra processos que existem, principalmente casos mais antigos, como (02005.000683/1998-13). Uma alternativa é buscar direto na Consulta de Autuações Ambientais e Embargos - selecione Autuações Ambientais, depois você deve digitar o CPF/CNPJ do processo que procura, e o intervalo do ano que procura em Período. Ao pressionar “Gerar Pdf” vai gerar um PDF do processo - mas também pode ter formatação errada (02005.000683/98-21). Você precisa também consultar a calculadora do NUP, com os 15 dígitos completos (02005.000683/1998), o resultado será o dígito verificador correto que está no num_processo_completo, o número 13.
O CruzaGrafos também tem a Lista de devedores Dívida Ativa da União e do FGTS. A fonte que consultamos para download dos dados e disponibilização é o site de Dados Abertos, que a PGFN (Procuradoria-Geral da Fazenda Nacional) periodicamente atualiza.
Aqui algumas informações que podem ajudar a você entender melhor as informações:
- CPF_CNPJ Número identificador do contribuinte no cadastro de pessoas físicas ou no cadastro nacional de pessoas jurídicas
- DATA_INSCRICAO data em que o crédito foi insrcito em dívida ativa
- ENTIDADE_RESPONSAVEL indica se o débito de FGTS está sendo cobrado pela PGFN ou pela Caixa Econômica Federal
- INDICADOR_AJUIZADO indica se o crédito está sendo cobrado judicialmente
- NOME_DEVEDOR nome do devedor
- NUMERO_INSCRICAO número da inscrição em dívida ativa
- RECEITA_PRINCIPAL receita do crédito que está sendo cobrado
- SITUACAO_INSCRICAO situação da inscrição no sistema de controle de créditos
- TIPO_DEVEDOR indica se o devedor é principal (titular original da dívida) ou corresponsável (foi vinculado posteriormente à dívida)
- TIPO_PESSOA indica se é uma pessoa física ou jurídica
- TIPO_SITUACAO_INSCRICAO indica se a inscrição está em cobrança (situação irregular), em benefício fiscal (em parcelamento ou moratória), em negociação, suspenso por decisão judical, garantia (integralmente garantida)
- UF_UNIDADE_RESPONSAVEL unidade federativa da unidade da PGFN responsável pela cobrança do devedor
- UNIDADE_INSCRICAO indica a unidade da PGFN que realizou a inscrição em dívida ativa
- UNIDADE_RESPONSAVEL unidade da PGFN responsável pelo acompanhamento do devedor
- VALOR_CONSOLIDADO valor do débito na data de extração, com acréscimos legais
O CruzaGrafos atualiza suas informações a cada três meses mais ou menos, então para checar se as informações ainda são as mesmas ou se mudaram é importante fazer a checagem final nos sites oficiais da PGFN.
No repositório "dados abertos" constam todos os débitos dos contribuintes inscritos em dívida ativa da União, qualquer que seja a situação atual do débito (se em cobrança, com exigibilidade ativa ou se com alguma hipótese de suspensão da exigibilidade, como o parcelamento dos débitos), conforme previsão do art. 7º, da Portaria PGFN nº 636, de 09 de janeiro de 2020. É exatamente a informação que consta no site:
"Descrição: conjunto de informações sobre débitos com a Fazenda Nacional ou o FGTS inscritos em Dívida Ativa, em todas as situações, incluindo seus devedores, na condição de devedor principal, corresponsável ou solidário, atualizada trimestralmente".
E no site da "lista de devedores" contém apenas os débitos exigíveis, ou seja, aqueles que estão em situação irregular, conforme previsão do art. 2º, da Portaria PGFN nº 636, de 09 de janeiro de 2020. É exatamente a informação contida neste outro site:
"Na Lista de Devedores, você pode consultar os contribuintes que estão inscritos em dívida ativa da União e do FGTS, na condição de devedor principal, corresponsável ou solidário. Importante destacar que não estão incluídos na lista os débitos parcelados, garantidos ou com exigibilidade suspensa."
Sendo assim, enquanto que na "lista de devedores" constam apenas os débitos em situação irregular, em outras palavras, os plenamente exigíveis; no "dados abertos" constam todos os débitos, em qualquer situação, tantos os irregulares como os regulares, ou seja, tanto os exigíveis como aqueles com a exigibilidade suspensa. Por isso, a divergência dos valores deve sempre observar a seguinte lógica: "dados abertos" ≥ "lista de devedores".
Não é demais lembrar que está franqueado a qualquer cidadão o acesso a informações e documentos através da Lei de Acesso à Informação (Lei nº 12.527/2011).
As conexões e grafos da plataforma são então produzidos com o cruzamento das principais chaves de identificação – no caso aqui CPF, CNPJ e nome completo.
Essas bases dados são periodicamente atualizadas pelos órgãos públicos e também serão da mesma forma atualizadas no CruzaGrafos. O projeto também irá incluir outras bases de dados de interesse público e jornalístico. Os usuários receberão esse aviso e também essa metodologia será atualizada com esse esclarecimento.
Adiantamos, contudo, que não há nenhuma avaliação de mérito do conteúdo das bases de dados por parte do CruzaGrafos, da Abraji, do Brasil.IO ou dos profissionais envolvidos neste projeto. Nós apenas facilitamos o acesso a documentos públicos, conforme o Princípio da Publicidade (Art. 37, caput, CF/88) e respeitando as restrições do Art 5º, LX, da CF/88 e de legislação ordinária.
3. Estudos em bancos de dados e inovações técnicas
A equipe do projeto CruzaGrafos faz análise exploratória de dados em bases de dados de interesse público no Brasil. O trabalho foi feito por meio de pesquisas sobre portais de acesso a dados abertos no Brasil, conversas com especialistas e estudo das informações deixadas por um dos apoiadores do projeto, o jornalista Claudio Weber Abramo (1946-2018).
Catalogamos esses dados, suas características, linhas e colunas, e também estudamos sua viabilidade de uso com o software Metabase. Também foram estudados portais de dados públicos e APIs que podem facilitar a atualização das informações do projeto.
Esses estudos foram importantes para saber quais bancos de dados precisariam de limpeza de informações, quais informações são nomes de pessoas ou empresas, quais informações são IDs, quais informações podem ser usadas como chaves de cruzamento entre diferentes bancos de dados, quais bancos de dados são de real interesse público ou podem ser explorados nas demais fases do projeto, entre outros fatores.
As principais inovações em tecnologia de código no CruzaGrafos foram:
- (1) Centralizador de entidades: permite a busca de nomes, empresas, municípios, hospitais, contratos, etc., e nos dá o identificador universal único (UUID). As entidades podem ser: empresas, pessoas, multas, aplicativos etc. A falta de um UUID traz problemas como a necessidade de filtrar vários campos ao mesmo tempo (que mudam de conjunto de dados para conjunto de dados), dificuldade de pesquisar em mais de um conjunto de dados, dificuldade na geração de ID offline para consultas externas, entre outros
- (2) Backend do grafo: este é o "coração" do sistema, que se conecta ao sistema anterior para pesquisar e gerenciar consultas no banco de gráficos, API etc.
- (3) CruzaGrafos: aqui temos a "cola" de tudo e é a parte mais específica, é onde temos a integração com a autenticação do sistema de associados Abraji, onde temos os scripts que alimentar os dois sistemas acima e a interface que o usuário acessa.
Também realizamos outras ações de tecnologia, como:
- Processamento de dados (sócios de empresas brasileiras, CNPJs brasileiros - código único de identificação de empresas no Brasil -, atividades corporativas por CNPJ, candidaturas políticas, número do processo completo em autuações ambientais lavradas pelo Ibama, doações políticas, contratos de saúde, entre outras das principais bases a serem selecionadas para lançamento no futuro)
- Foram implantadas as funcionalidades Expandir nós vizinhos e Expandir nós vizinhos em até 2 graus que permite rapidamente expandir a visualização dos grafos de conexões entre pessoas e empresas – mostra os graus de conexão próximos
- Foi feita a funcionalidade "Salvar grafo", que será muito útil durante os testes - não só para facilitar a vida de quem está testando, mas também para nos ajudar a depurar em caso de erros
- Construímos uma solução para calcular o “caminho entre os objetos”, que calcula o caminho mais curto entre duas pessoas/empresas e mostra no grafo
- Adicionamos uma funcionalidade que não estava inicialmente planejada, mas que vai ajudar muito na usabilidade, após testes que fizemos internamente: navegar no histórico dos objetos (pessoas e empresas) pesquisados
4. Transparência
Todos os passos descritos na obtenção dos dados, checagens e o código fonte da plataforma também serão disponibilizados no GitHub. Caso você tenha identificado algum erro ou tenha sugestões, pedimos que você entre em contato no e-mail [email protected]
5. Cronograma e Atualizações
As atualizações das bases do Tribunal Superior Eleitoral, da Receita Federal do Brasil e do Ibama serão publicadas periodicamente na plataforma.
Também serão incluídas novas bases de dados e o usuários serão informados na própria plataforma e na nossa comunicação do projeto.
Atenção: Consultamos milhões de dados da Receita Federal do Brasil, do Tribunal Superior Eleitoral e Ibama. Mas sempre indicamos que você confira na Receita Federal o CNPJ porque os dados de uma empresa podem mudar mais rápido do que nossa atualização. E da mesma forma é indicado consultar as autuações ambientais no sistema SEI (Sistema Eletrônico de Informações) do Ibama - conforme mostramos no ícone descrição (i) de cada autuação visualizada nos grafos.
Texto atualizado em 17/9/2023