.jpeg)
A apresentação feita em PowerPoint para esse projeto se encontra no meu Linkedin.
O projeto foi feito através de uma base de RH, disponibilizada pela preditiva, que apresenta a otimização dos custos do plano de saúde de colaboradores afim de diminuir o gasto total da empresa.
No projeto foi feito inteiramente utilizando o Excel, junto a ele foi feito o uso de estatística descritiva, como medidas estatísticas e tabelas de frequência, análise da correlação e cálculo da regressão linear múltipla para entender quais variáveis impactam o custo do plano. Além do uso da metodologia do CRISP-DM.
A planilha de trabalho que foi utilizada no projeto com as análises está disponível nas planilhas google (as análises podem não estar completas, devido a incompatibilidade com o Excel).
A empresa conta com mais de 20 mil colaboradores, ao longo dos anos foi notado um aumento no custo do plano de saúde. Dado isso o Time da Diretoria de Pessoas realizou uma pesquisa interna com um grupo de 1338 colaboradores sorteados aleatoriamente.
O sucesso do projeto busca otimizar o custo do plano de saúde ou criar soluções para os possíveis problemas enfrentados. Com as respectivas informações dos colaboradores.
Com base nisso, foi pedido que:
Quais fatores estão mais relacionados com o Custo do Plano de Saúde na empresa?
Que tipo de ações preventivas a empresa pode fazer de forma a diminuir esse custo?
Como foi disponibilizado uma pasta de trabalho do Excel, não foi necessário fazer nenhuma coleta em cima dos respectivos dados. Os metadados da base se encontram assim:

Nossa base consta com 9 variáveis, sendo 4 variáveis quantitativas, 2 variáveis binárias e 3 variáveis qualitativas, sendo “Custo_Saude” nossa variável alvo.
A “Faixa_IMC” e a flag “IMC_acima_30” foram as duas variáveis criadas para ajudar na análise.
Aqui buscamos entender como as variáveis estão em nossa base. Onde é feito o uso das técnicas de análise unidimensional, bidimensional e análise de correlação. E também criar possíveis soluções para o negócio.
As principais análises obtidas foram:

A média de custo é de R$ 1.327 e mediana de R$ 938.73% dos colaboradores tem o custo do plano de até R$ 1500.
15% dos colaboradores tem um custo maior que R$ 2.500.


53% dos colaboradores se encontram em estado de obesidade e 7 % dos colaboradores estão no nível mórbido.
Apenas 19% dos colaboradores se encontram no IMC ideal.
O IMC médio e o mediano é de 30.
Fazemos o uso da correlação linear e do coeficiente de determinação (r quadrado), e temos os seguintes resultados:

Agora explorando as melhores variáveis:

Entre as pessoas que não fumam apresentam uma média de custo R$ 843 e mediana de R$ 734.
Entre os fumantes esses mesmos valores sobem muito, apresentam uma média de custo R$ 3.205 e mediana de R$ 3.445.
Até 75% dos que não fumam apresentam um valor de R$ 1.136 por custo do plano de saúde, o que ainda é um valor abaixo dos fumantes.

Vemos que não apresenta uma tendência de subida, porém ocorre algo bem situacionais, onde ocorre uma subida inesperada nos valores duas vezes, seria necessário talvez realizar outro estudo buscando entender essa variável.
Onde fazemos a duplicação da nossa base, afim de realizar a transformação dos nossos dados para utilizar e criar o modelo de regressão linear múltipla.
O que temos que fazer é transformar as variáveis qualitativas em variáveis binárias. Sendo assim, foi criada as seguintes variáveis dummies:
D_Fumante: Onde 1 é para fumante é para quem não fuma.
D_Sexo_Masc: 1 Seria para o Sexo masculino e 0 para o feminino.
D_Regiao: Foram criadas outras três variáveis, sendo para o nordeste, sudeste e norte e quando todas são 0 é que seria o centro.Feita as transformações podemos criar nosso estudo de regressão.
Aqui estamos buscando descobrir quais variáveis combinadas mais explicam o nosso custo.

Aqui obtemos um valor de r-quadrado ajustado de 75% o que é muito bom, porém, nesse caso ainda é um modelo muito custoso e complexo, onde usamos todas as variáveis.
Para diminuir esse gasto retiramos as variáveis com p-valor acima de 5%, onde isso significa que não nenhuma comprovação que esse valor na população seja 0, ou seja, não agrega em nada. A variável d_regiao_nordeste também vai ser retirada vista que ela também conta com um valor p alto.

No segundo estudo, vimos as variáveis que poderiam ser descartadas e usamos as melhores posicionadas sendo elas, se o colaborador é Fumante, IMC do colaborador, Idade e a Quantidade de filhos.
Também contamos com uma diferença de 2 milhões no erro, e o mesmo valor de r2 ajustado, o que indica que mantemos um bom resultado.
Olhamos os critérios de sucesso do projeto, alinhamos com o time da Diretoria do RH e apresento o projeto e os resultados obtidos, além disso mostra uma possível situação:

Para esse cenário, decidi sortear aleatoriamente ~25% dos fumantes que continham o IMC acima de 30, e equiparar as médias, poderia ter sido feito o intervalo de confiança, porém como todos os valores de custo constam no sistema da empresa, seria mais proveitoso fazer o estudo com todos esses valores.
Também apresento o plano de ação solicitado pelo time, afim de otimizarmos esse custo ao longo do próximo ano.

A análise feita junto com o resultado que podemos obter visa diminuir o custo do orçamento do plano de saúde dos colaboradores, através das técnicas certas junto com seu plano de implementação.
Esse resultado foi possível graças a entender o contexto do problema e os melhores métodos para resolver o mesmo.
Caso queiram discutir alguma técnica utilizada, dúvida ou sugerir algo, estou aberto a receber mensagens no meu Linkedin.