Data-Mining

Solução Final - ML Olympiad [1º lugar]

Solução vencedora (1º lugar) da ML Olympiad do Kaggle: estratégia analítica completa com CatBoost e R para classificação em dados de saúde pública.

Fellipe Gomes

5 minute read

Resultado do 1º lugar na ML Olympiad do Kaggle com modelo de classificação CatBoost <p>O <a href="https://www.meetup.com/TensorFlowSP/events/284607061/">TFUG - TensorFlow Users Group de São Paulo</a> lançou uma nova <a href="https://www.kaggle.com/competitions/ml-olympiad-ensure-healthy-lives">competição no Kaggle</a> onde o objetivo era desenvolver modelos para previsão de diagnóstico de síndromes respiratórias, que é um tema relacionado com um dos 17 tópicos de Desenvolvimento Sustentável das Nações Unidas - <em>Boa saúde e bem-estar</em>.</p>

Solução Final - ML Olympiad [2º lugar]

Solução que alcançou o 2º lugar na ML Olympiad do Kaggle: análise exploratória em R, feature engineering e modelagem com CatBoost para prever qualidade educacional.

Fellipe Gomes

25 minute read

Resultado do 2º lugar na ML Olympiad do Kaggle com pipeline de CatBoost <p>No final de Janeiro desde ano (2022) o <a href="https://www.meetup.com/TensorFlowSP/events/284607061/">TFUG - TensorFlow Users Group de São Paulo</a> lançou uma competição no Kaggle para prever as notas do enem que tem relação com um dos 17 tópicos de Desenvolvimento Sustentável das Nações Unidas - <em>Educação de Qualidade</em>.</p>

Vou te provar que da para fazer Grafos bonitos em R!

Neste post vamos coletar notícias via web scrapping, detectar entidades dos textos e criar um grafo utilizando ggplot2

Fellipe Gomes

8 minute read

Grafo de rede de entidades extraídas de notícias visualizado com ggplot2 em R <p>Durante os anos de 2020 e 2021 fiz um <a href="https://educacao-executiva.fgv.br/df/brasilia/cursos/mba-pos-graduacao/mba-presencial/mba-executivo-em-business-analytics-e-big-data">MBA Executivo em Business Analytics e Big Data</a> na FGV e uma das disciplinas que gostei bastante abordou a análise de mídias sociais com técnicas de mineração de texto e processamento de linguagem natural.</p>

Como automatizar relatórios longos e repetitivos com RMarkdown

Veja como fazer um relatório estatístico "extenso e repetitivo" sem utilizar copiar e colar nenhuma vez

Fellipe Gomes

10 minute read

Fluxo de automação de relatórios estatísticos com RMarkdown e loops programáticos <p>Uma tarefa comum no dia a dia de um estatístico (ou cientista de dados) é a elaboração de relatórios para passsar ao restante da equipe e/ou tomadores de decisão os resultados encontrados e muitas vezes essa tarefa pode parecer desgastante quando os relatórios são muitos extensos e repetitivos.</p>

Hackeando o R: estratégia split-apply-combine

Veja como aplicar essa estratégia de maneira eficiente utilizando os pacotes do tidyverse: dplyr+tidyr+purrr

Fellipe Gomes

6 minute read

Diagrama da estratégia split-apply-combine com dplyr, tidyr e purrr no R <p>Geralmente em uma análise de dados precisamos compreender, além do comportamento geral dos dados, o seu comportamento de acordo com alguns segmentos.</p>

Análise de sobrevivência com dados do jogo PUBG disponíveis no Kaggle

O que interefere na probabilidade de um indivíduo sobreviver? Quais fatores apresentam efeito no risco de morte em um intervalo de tempo? Neste post buscaremos evidências estatísticas para responder estas perguntas em dados abertos do PUBG hospedados no Kaggle

Fellipe Gomes

19 minute read

Curvas de sobrevivência de Kaplan-Meier aplicadas a dados do jogo PUBG do Kaggle <p>Análise de sobrevivência é um termo que se refere a situações médicas e é caracterizada pela sua variável resposta, que pode ser apresentada de três formas: probabilidade de sobrevivência, taxa de incidêcia e taxa de incidência acumulada.</p>

Um estudo sobre modelos de aprendizagem baseados em árvores com desafio do Kaggle

Um estudo aplicado de modelos de aprendizagem baseados em árvores utilizando a base de dados do Kaggle para prever o preço final de casas residenciais em Ames, Iowa, utilizando uma variedade de aspectos

Fellipe Gomes

30 minute read

Visualização de árvore de decisão e comparação de modelos ensemble para previsão de preços <p>Segundo o <a href="https://en.wikipedia.org/wiki/Kaggle">Wikipédia</a>: “Kaggle é a maior comunidade mundial de cientistas de dados e machine learning.” Aprendo muito estudando as resoluções de alguns competidores pois lá é possível conferir tanto as metodologias utilizadas pelos competidores quando os códigos e é notável o cuidado dos participantes para que seja possível a reprodutibilidade dos resultados, o que pode impulsionar o aprendizado.</p>

Brasil x Argentina, tidytext e Machine Learning

Aplicando técnincas de Text Mining como pacote tidy text para explorar a rivalidade entre Brasil e Argentina! Veja também como a análise de sentimentos pode ser divertida além de possíveis aplicações de machine learning

Fellipe Gomes

30 minute read

Nuvem de palavras e análise de sentimentos sobre Brasil x Argentina com tidytext <p>A copa do mundo esta ai novamente e como não poderia ser diferente, com ela surgem novos <a href="http://cio.com.br/noticias/2015/10/27/tome-nota-2-5-quintilhoes-de-bytes-sao-criados-todos-os-dias/">quintilhões de bytes todos os dias</a>, saber analisar esses dados é um grande desafio pois a maioria dessa informação se encontra de forma não estruturada e além do desafio de captar esses dados ainda existem mais desafios que podem ser ainda maiores, como o de processá-los e obter respostas…

AED de forma rápida e um pouco de Machine Learning

Veja como é possível realizar a AED de forma muito rápida com o pacote SmartEAD, além de uma breve aplicação de técnicas de machine learning e estatística para ilustrar alguns possíveis cenários da analise da dados

Fellipe Gomes

31 minute read

Dashboard de análise exploratória automática com SmartEAD e visualizações de machine learning <p>A análise exploratória dos dados (AED) foi um termo que ganhou bastante popularidade quando Tukey publicou o livro Exploratory Data Analysis em 1977 que tratava uma “busca por conhecimento antes da análise de dados de fato”. Ocorre quando busca-se obter informações ocultas sobre os dados, tais como: variação, anomalias, distribuição, tendências, padrões e relações</p>

Tabelas Incríveis com R

Alguns pacotes que serão bem úteis na hora de criar tabelas lindas e informativas!

Fellipe Gomes

8 minute read

Exemplos de tabelas formatadas e coloridas criadas com pacotes R como kableExtra e formattable <p>O trabalho do estatístico vai muito além do planejamento, sumarização e interpretação de observações para fornecer a melhor informação possível a partir do dados disponíveis. O processo de analises deve ser tratado na etapa final de todo projeto ou pesquisa que envolva apresentação dos resultados, não é atoa que já até existem áreas dentro da ciência de dados focada nesta tarefa, recebendo o título de “Data Artist”.</p>
Politica de Privacidade | Termos de Uso