Pratica

Solução Final - ML Olympiad [1º lugar]

Solução vencedora (1º lugar) da ML Olympiad do Kaggle: estratégia analítica completa com CatBoost e R para classificação em dados de saúde pública.

Fellipe Gomes

5 minute read

Resultado do 1º lugar na ML Olympiad do Kaggle com modelo de classificação CatBoost <p>O <a href="https://www.meetup.com/TensorFlowSP/events/284607061/">TFUG - TensorFlow Users Group de São Paulo</a> lançou uma nova <a href="https://www.kaggle.com/competitions/ml-olympiad-ensure-healthy-lives">competição no Kaggle</a> onde o objetivo era desenvolver modelos para previsão de diagnóstico de síndromes respiratórias, que é um tema relacionado com um dos 17 tópicos de Desenvolvimento Sustentável das Nações Unidas - <em>Boa saúde e bem-estar</em>.</p>

Solução Final - ML Olympiad [2º lugar]

Solução que alcançou o 2º lugar na ML Olympiad do Kaggle: análise exploratória em R, feature engineering e modelagem com CatBoost para prever qualidade educacional.

Fellipe Gomes

25 minute read

Resultado do 2º lugar na ML Olympiad do Kaggle com pipeline de CatBoost <p>No final de Janeiro desde ano (2022) o <a href="https://www.meetup.com/TensorFlowSP/events/284607061/">TFUG - TensorFlow Users Group de São Paulo</a> lançou uma competição no Kaggle para prever as notas do enem que tem relação com um dos 17 tópicos de Desenvolvimento Sustentável das Nações Unidas - <em>Educação de Qualidade</em>.</p>

Solução Final - Porto Seguro Data Challenge [3º lugar]

Confira a estratégia aplicada para a competição de machine learning do Porto Seguro hospedada no Kaggle

Fellipe Gomes

16 minute read

Resultado final do Porto Seguro Data Challenge no Kaggle com 3º lugar e análise SHAP <p>Em Agosto e 2021 a Porto Seguro lançou um desafio no Kaggle que consistia em estimar a propensão de aquisição de novos produtos. Tratava-se de um problema de classificação e foi bem desafiador principalmente por 2 motivos:</p>

Otimizando pipelines que envolvem dados desbalanceados

Utilizaremos o framework tidymodels para machine learning em R com o auxílio do pacote workflowsets para otimizar pipelines de dados desbalanceados

Fellipe Gomes

12 minute read

Pipeline de workflowsets do tidymodels comparando modelos para dados desbalanceados <p>A tarefa de classificação com dados desbalanceados é muito comum na vida real podendo variar desde um leve viés até um enorme desequilíbrio na distribuição da classe de interesse. Problemas mais comuns envolvem:</p>

Como automatizar relatórios longos e repetitivos com RMarkdown

Veja como fazer um relatório estatístico "extenso e repetitivo" sem utilizar copiar e colar nenhuma vez

Fellipe Gomes

10 minute read

Fluxo de automação de relatórios estatísticos com RMarkdown e loops programáticos <p>Uma tarefa comum no dia a dia de um estatístico (ou cientista de dados) é a elaboração de relatórios para passsar ao restante da equipe e/ou tomadores de decisão os resultados encontrados e muitas vezes essa tarefa pode parecer desgastante quando os relatórios são muitos extensos e repetitivos.</p>

Hackeando o R: estratégia split-apply-combine

Veja como aplicar essa estratégia de maneira eficiente utilizando os pacotes do tidyverse: dplyr+tidyr+purrr

Fellipe Gomes

6 minute read

Diagrama da estratégia split-apply-combine com dplyr, tidyr e purrr no R <p>Geralmente em uma análise de dados precisamos compreender, além do comportamento geral dos dados, o seu comportamento de acordo com alguns segmentos.</p>

Seu app, RStudio e Shiny Server na nuvem do Google

Uma maneira prática de hospedar o app desenvolvido no post no Shiny Server e ter seu próprio RStudio Server na nuvem do Google em uma máquina virtual Ubuntu 16.04.

Fellipe Gomes

12 minute read

Arquitetura de deploy de Shiny Server e RStudio Server na Google Cloud Platform <p>Uma das várias maneiras de se implementar o <a href="https://www.rstudio.com/products/rstudio/download-server/">RStudio Server</a> e o <a href="https://www.rstudio.com/products/shiny/download-server/">Shiny Server</a> é através de serviços de nuvem que fornecem máquinas virtuais. Empresas gigantes no mercado como Amazon Web Services (AWS), Microsoft, Google, IBM, Oracle etc têm investido pesado nestes serviços e a escolha de qual cloud utilizar deve ser feita de acordo com a necessidade do…

Com que frequência ocorrem acidentes na ponte Rio-Niterói?

Com os dados públicos da PRF e um pouco de Estatística buscaremos respostas para esta e outras perguntas relacionadas ao número de acidentes na Ponte Rio-Niterói.

Fellipe Gomes

19 minute read

Mapa e gráficos estatísticos sobre frequência de acidentes na Ponte Rio-Niterói <p>Estudar em outra cidade têm suas vantagens e desvantagens, durante toda a graduação atravessei Baía de Guanabara pela Ponte Presidente Costa e Silva, (popularmente conhecida como Ponte Rio–Niterói) assim como todas as pessoas que fazem esse trajeto diariamente e diante de tanta beleza natural com a vista panorâmica da Baía como os espetáculos proporcionados pelo pôr do sol, os pássaros ou a beleza inegável do Pão de Açúcar também é notável a beleza fruto da maior habilidade humana: a…

Um estudo sobre modelos de aprendizagem baseados em árvores com desafio do Kaggle

Um estudo aplicado de modelos de aprendizagem baseados em árvores utilizando a base de dados do Kaggle para prever o preço final de casas residenciais em Ames, Iowa, utilizando uma variedade de aspectos

Fellipe Gomes

30 minute read

Visualização de árvore de decisão e comparação de modelos ensemble para previsão de preços <p>Segundo o <a href="https://en.wikipedia.org/wiki/Kaggle">Wikipédia</a>: “Kaggle é a maior comunidade mundial de cientistas de dados e machine learning.” Aprendo muito estudando as resoluções de alguns competidores pois lá é possível conferir tanto as metodologias utilizadas pelos competidores quando os códigos e é notável o cuidado dos participantes para que seja possível a reprodutibilidade dos resultados, o que pode impulsionar o aprendizado.</p>

Brasil x Argentina, tidytext e Machine Learning

Aplicando técnincas de Text Mining como pacote tidy text para explorar a rivalidade entre Brasil e Argentina! Veja também como a análise de sentimentos pode ser divertida além de possíveis aplicações de machine learning

Fellipe Gomes

30 minute read

Nuvem de palavras e análise de sentimentos sobre Brasil x Argentina com tidytext <p>A copa do mundo esta ai novamente e como não poderia ser diferente, com ela surgem novos <a href="http://cio.com.br/noticias/2015/10/27/tome-nota-2-5-quintilhoes-de-bytes-sao-criados-todos-os-dias/">quintilhões de bytes todos os dias</a>, saber analisar esses dados é um grande desafio pois a maioria dessa informação se encontra de forma não estruturada e além do desafio de captar esses dados ainda existem mais desafios que podem ser ainda maiores, como o de processá-los e obter respostas…
Politica de Privacidade | Termos de Uso