Dados Desbalanceados

Solução Final - Porto Seguro Data Challenge [3º lugar]

Confira a estratégia aplicada para a competição de machine learning do Porto Seguro hospedada no Kaggle

Fellipe Gomes

16 minute read

Em Agosto e 2021 a Porto Seguro lançou um desafio no Kaggle que consistia em estimar a propensão de aquisição de novos produtos. Tratava-se de um problema de classificação e foi bem desafiador principalmente por 2 motivos:

Otimizando pipelines que envolvem dados desbalanceados

Utilizaremos o framework tidymodels para machine learning em R com o auxílio do pacote workflowsets para otimizar pipelines de dados desbalanceados

Fellipe Gomes

12 minute read

A tarefa de classificação com dados desbalanceados é muito comum na vida real podendo variar desde um leve viés até um enorme desequilíbrio na distribuição da classe de interesse. Problemas mais comuns envolvem:

Prevendo a qualidade do sono utilizando Machine Learning

Utilizaremos dados reais coletados pelo celular para gerar previsões a partir de uma pequena base de dados com target desbalanceada

Fellipe Gomes

37 minute read

Sim, exatamente! Neste post analisaremos dados de um tracking que venho fazendo desde 2017 com informações relacionadas à um sono de qualidade.