Resultados
Nesta seção, apresentaremos os resultados da nossa análise, destacando os principais insights obtidos ao longo do processo. Utilizaremos as métricas definidas na metodologia para avaliar o impacto das técnicas de correção de viés aplicadas no nosso conjunto de dados simulados. O dataset contém 8000 entradas com 6 colunas: 'Idade', 'Gênero', 'Grupo', 'Selecionado', 'Pontuação' e 'Origem Étnica'. Todos os campos estão completos, sem valores nulos, o que é excelente para a análise.
5.1.1 Identificando e corrigindo Outliers : Durante a analise descobrimos presença de outliers que poderiam precisar de correções, Pontuação: Varia de -19 a 119, com média de aproximadamente 49,7. Para tratar outliers na pontuação, uma abordagem comum é definir limites com base em alguma medida estatística, como a média e o desvio padrão.
Este processo de correção é essencial para assegurar a integridade dos dados antes de prosseguirmos com a análise de viés e a implementação de estratégias de mitigação e a visualização facilita a comparação direta dos dados antes e depois do tratamento de outliers, mostrando que as medidas que tomamos foram eficazes em remover as anomalias dos dados. Com os dados devidamente preparados, estamos prontos para avançar para as próximas etapas do projeto.
Figura abaixo demonstra graficamente a resolução dos Outliers Antes e Depois da correção:
5.1.2 Resultados da Correção de Viés de Gênero
Os resultados demonstram que a técnica de correção de viés de gênero foi eficaz e as taxas de seleção são mais altas para todos os gêneros, indicando uma seleção mais equitativa após os ajustes das ponderações.
O gráfico abaixo da taxa de seleção por gênero antes e depois da mitigação do víeis.
5.1.3 Resultados da Correção de Viés de Grupo:
Da mesma forma, A reamostragem resultou em taxas de seleção mais equilibradas entre os grupos, indicando uma seleção mais equitativa após o ajuste:
5.1.4 Análise das Disparidades de Seleção por Gênero e Grupo:
Observamos variações nas taxas de seleção entre os diferentes gêneros e grupos. Por exemplo, o gênero "Feminino" no "Grupo C" tinha uma taxa de seleção de aproximadamente 28.34%, enquanto o gênero "Masculino" no "Grupo B" tinha cerca de 23.00%. As taxas de seleção após a correção mostram um equilíbrio muito melhor entre gêneros e grupos. Por exemplo, o gênero "Feminino" em todos os grupos tem taxas de seleção próximas de 50%, mostrando um equilíbrio mais uniforme. Esta análise demonstra que as estratégias de mitigação de viés adotadas foram eficazes em equilibrar as taxas de seleção entre os diferentes gêneros e grupos, contribuindo significativamente para a redução das disparidades iniciais.
O gráfico da taxa de seleção por gênero e grupo antes e depois da correção:
5.1.5 Machine learning:
Utilizamos ML para analisar ainda mais profundamente o dataset, onde construímos modelos preditivos e avaliamos como as estratégias de mitigação de viés influenciam os resultados dos modelos onde preparamos e dividimos os dados em conjunto de treino de mais de cinco mil amostras e de testes mais de dois mil e cada amostra contém features idade, gênero, grupo, pontuação e origem étnica onde codificado numericamente.
O modelo adotado foi de regressão de logística que apresentou um desempenho excepcional no conjunto de testes com precisão, recall e pontuação F1 de 100% para ambas as classes (Selecionado e Não Selecionado) onde a pontuação AUC-ROC foi de 1.0, indicando uma excelente capacidade do modelo em diferenciar entre as classes. A matriz de confusão mostra uma perfeita classificação dos casos, com todas as previsões corretamente identificadas. Isso sugere que o modelo foi capaz de capturar com precisão os padrões nos dados que determinam a seleção de candidatos.
Figura abaixo da Matrix de Confusão do Modelo de Regressão de Logística:
5.1.6 Função de Previsão:
Criamos uma função que recebe os valores dos widgets como input e usa o modelo treinado para prever a probabilidade de seleção. Esta função também pode explicar como cada característica influencia a previsão.
5.1.7 Realização de Resultados:
Usamos gráficos para mostrar a probabilidade de seleção com base nas características atuais. Incluindo gráficos adicionais para fornecer contexto, como a distribuição de características nos dados. Integrar Tudo em um Dashboard.
Combinamos os widgets e as visualizações em um layout para criar um dashboard interativo. Certificando de que o dashboard atualize as previsões e visualizações em tempo real com base nas entradas do usuário
O gráfico abaixo mostrar a probabilidade de seleção do dashboard interativo.