Chegamos na última BDletter de 2022 e não poderíamos deixar de agradecer vocês por todo o apoio. É nossa comunidade ativa e engajada que mantém viva a missão de universalizar o acesso a dados de qualidade. Por isso, nosso presente de natal para você chega mais cedo esse ano. Agora você pode fazer parte da seleção dos próximos dados da BD fazendo uma sugestão ou votando em sugestões da comunidade através do nosso canal do Discord. Nessa edição da BDletter, você entende melhor como participar desse processo e ainda aproveita uma análise incrível e uma entrevista sobre dados da Copa do Mundo. Boa leitura!
🎲 Especial: Quais dados você quer na BD?
Isso mesmo, queremos que você decida com a gente quais serão os próximos dados disponibilizados em nosso datalake público. Para isso, preparamos um canal de fórum em nosso servidor do Discord, por onde você pode postar uma sugestão de conjunto de dados para que nossa equipe avalie e coloque em votação para toda a comunidade. O mais votado entrará para a lista de prioridades do nosso time de Dados.
É super simples e rápido criar sua sugestão, basta responder algumas perguntas como em qual site encontrar os dados e porque você acredita que eles deveriam estar disponíveis em nosso datalake público. Comece já, participe da nossa comunidade e conte lá para nós quais dados você gostaria de ver na BD!
📊 Uma boa pergunta
Como foi o desempenho histórico da Argentina e da Croácia nas Copas do Mundo?
Não foi dessa vez que levamos o Hexa, mas ainda tem jogo para o fim do campeonato e não está fácil dizer quem será a seleção vencedora. A gente sabe que um bom palpite é baseado em dados, por isso exploramos os dados da Copa do Mundo, já tratados e prontos para análise na BD, para comparar o desempenho das duas seleções que jogam hoje. Veja na visualização como foi a participação dos dois times de 1930 até 2018.
Hoje, a primeira disputa das semifinais da Copa do Catar será entre Croácia, atual vice-campeã, e Argentina, bicampeã mundial. Há quatro anos já tivemos um confronto entre as duas seleções e a Croácia venceu a Argentina na fase de grupos por 3 a 0. Mas isso não significa que o jogo está perdido para os hermanos! Historicamente, a seleção argentina tem um melhor desempenho nas edições do campeonato, com um aproveitamento de 58% (47 vitórias); comparado com 56,5% de aproveitamento dos croatas (13 vitórias) ao longo das edições.
Agora, uma coisa parece certa: se não quiserem entrar na mesma arapuca que a seleção brasileira no último jogo, os nossos vizinhos sul americanos precisam evitar chegar na prorrogação ou nos pênaltis. Em todas as suas participações, a Croácia nunca perdeu uma partida que tenha se prolongado para depois do empate nos dois tempos. Já a Argentina venceu apenas 75% das partidas (3) em que chegou na prorrogação e 80% (4) das que chegou nos pênaltis.
Independente de quem ganhar, você pode aproveitar o código utilizado na análise para reproduzir esse recorte e ter em mãos o desempenho das seleções finalistas antes do último jogo. Use e abuse do código completo pelo nosso repositório de análises noGitHub. Não esqueça de compartilhar conosco o que descobriu. É só marcar @basedosdados nas redes sociais!
💬 Trocando dados
com Judite Cypreste
Jornalista de dados no Escritório de Dados da Prefeitura da Cidade do Rio de Janeiro
Conversamos sobre a iniciativa com a jornalista de dados do Escritório de Dados da Prefeitura da Cidade do Rio de Janeiro, Judite Cypreste, que trabalhou na raspagem, coleta e análise dos dados. Judite já passou por diversas redações como o jornal Folha de S.Paulo, UOL, e GloboNews. É entusiasta do uso da programação no jornalismo e foi indicada ao Prêmio The Sigma Awards em 2020.
Você trabalhou na raspagem, coleta e análise dos dados da Copa do Mundo para a produção do Álbum da Copa do Mundo Carioca, que une futebol, informação e história. O que motivou o projeto e como tem sido a repercussão?
Trabalhar no Escritório de Dados da Prefeitura é entender que precisamos trazer informações sobre a cidade, seja para identificar e apontar problemas, seja para exaltar suas qualidades como metrópole. No caso do álbum, a ideia era de trazer para o cidadão carioca a identificação com aquele que é o maior campeonato esportivo do mundo para os brasileiros. E nada melhor do que trazer esse sentimento de identidade do que entender quem são os nossos iguais, nossos colegas e vizinhos. Neste caso, procurar aqueles nascidos na nossa cidade e que de alguma forma não só contribuíram para a construção do futebol nacional como também em levar o Rio de Janeiro para o mundo. A ideia do álbum surgiu como aquele lugar em que faríamos a referência a essas figuras, afinal, é ali, naquele livrinho de papel, que apenas os maiores dos maiores são merecedores de ter seu rosto estampado. No nosso caso, nossos jogadores cariocas são as grandes estrelas.
A repercussão nos surpreendeu positivamente. Conseguimos levar nosso projeto a diversos meios de comunicação, incluindo uma citação muito carinhosa de uma das maiores jornalistas do país, a Flávia Oliveira. Outro lado da repercussão foi o de receber diversas mensagens de leitores que sequer sabiam que alguns dos jogadores eram cariocas. Isso foi muito legal para entender também a dimensão do nosso trabalho de pesquisa para construir a base de dados que gerou este material.
O projeto foi realizado pelo Escritório de Dados da Prefeitura do Rio de Janeiro, que disponibilizou o primeiro datalake público municipal do mundo. Qual a importância de difundir o acesso aos dados e informações de secretarias, autarquias e empresas municipais?
A disponibilização de dados públicos, por si só, é um grande desafio dentro de qualquer repartição pública. Trabalhar por uma transparência mais ativa requer muito planejamento, e acima de tudo, diálogo entre todas as partes envolvidas neste processo.
Estar dentro de um núcleo como o Escritório de Dados da prefeitura de uma das maiores capitais do país, é de uma grande responsabilidade porque fazemos exatamente esse "meio-de-campo" com o adicional de nos preocuparmos em como deixar essas informações cada vez mais acessíveis (e daí a ideia de se criar um datalake para facilitar esse consumo de informações). É com o acesso fácil à informação pública que o cidadão pode monitorar, cobrar e entender o que o governo faz e pode fazer por ele. Um maior acesso à informação é sinônimo de progresso e melhoria da vida das pessoas.
💡 Pra ficar ainda mais fácil
Imagina combinar uma das tecnologias mais populares para o desenvolvimento de dashboards com o datalake que centraliza mais de 80 conjuntos de dados públicos já tratados e prontos para análise?!
Pois é, você pode acessar os dados da BD no Power BI para criar gráficos, visualizações e dashboards incríveis. Basta fazer uma consulta SQL em nosso datalake público, criar um conjunto de dados por onde você pode salvar a tabela que quer, conectá-lo ao Power BI através da sua conta Google e carregar a tabela. Confira o passo a passo por aqui.
📌 O que rolou esse mês
Escala Brasil Transparente | As notas e o ranking da Escala Brasil Transparente já estão prontos para sua análise na BD. Graças ao Patrick Teixeira, voluntário que tratou e subiu os dados, ficou muito mais fácil conferir os municípios com mais de 50 mil habitantes que melhor ou pior pontuam no indicador. Acesse já e confira como sua cidade está no ranking.
Vaga Lead Data Engineer | Estamos em busca de uma pessoa para ser responsável por liderar a criação, manutenção e deployment de ETLs e pipelines, além de participar de decisões estratégicas sobre a infraestrutura de dados da BD. Se inscreva aqui para fazer parte de uma equipe colaborativa e com trabalho totalmente remoto, ou ajude compartilhando.
📡No radar
20 anos de Abraji | A Associação Brasileira de Jornalismo Investigativo (Abraji) completou 20 anos de atuação neste mês. Para celebrar a ocasião, a associação que defende o direito de acesso a informações pública divulgou o documentário online “Abraji 20 anos: de Tim Lopes a Dom Phillips” no YouTube. Confira por aqui.
Dicas para acessar informações públicas | Em dezembro, o Fórum de Direito de Acesso a Informações Públicas lançou a campanha #DepoisDasUrnas, que apresenta várias ferramentas para o acesso de informações confiáveis e de qualidade sobre os(as) representantes eleitos em 2022. Veja mais por aqui.
Transição de Carreira | Esse foi o tema da última edição dos #DialogosParaReprogramarOMundo, série mensal que traz profissionais para falarem sobre temas do universo da tecnologia. A live, organizada pela iniciativa {reprograma}, está disponível no YouTube.
🌎 Databasers
Fernando Barbalho, cientista de dados sênior na Secretaria do Tesouro Nacional, se deparou com dados preocupantes quando estava preparando exercícios de SQL para seus alunos. Infelizmente, o Brasil se posiciona em primeiro entre os países que mais assassinam pessoas trans no mundo. Você pode acessar os dados da iniciativa Transrespect x Transphobia, já tratados e disponibilizados pela BD, que contabilizam assassinatos de pessoas trans no mundo inteiro. Acesse por aqui e faça seus próprios recortes.