Descrição da Imagem

- Eu resido Brasília - DF, Brazil, eu tenho 51 anos, Sexo Masculino, estudo na , PUCRS, onde sou apaixonado por tecnologia, e com grande satisfação que compartilho minha enriquecedora experiência do meu último trabalho de mais de dois anos no emocionante projeto Sisfron, pela g4f soluções corporativas. Neste desafio fascinante, tive o privilégio de contribuir para o progresso tecnológico e a segurança nacional. No seio do Sisfron, mergulhei de cabeça na criação de design inovador, moldando interfaces que conectam e capacitam, cada linha de código, cada pixel, era uma oportunidade de aprimorar a experiência do usuário e garantir que a tecnologia servisse ao propósito com excelência. Além disso, meu papel estendeu-se ao fornecimento de suporte técnico em informática, onde a destreza e a solução de problemas foram essenciais, cada desafio técnico enfrentado era uma chance de crescimento e aprendizado, fortalecendo meu compromisso com a excelência. O projeto Sisfron, não foi apenas uma experiência profissional, mas também um compromisso com o progresso e a segurança da nação. Um capítulo que moldou minha trajetória e me ensinou a importância da dedicação e da inovação em todas as áreas da vida. Você pode me conectar no LinkedIn ou se preferir no Telegram.

- Aqui você encontra meu último trabalho acadêmico em Ciência de Dados e Inteligência Artificial, onde publico meu artigo envolvendo Ética na Inteligência Artificial, onde usamos machine learning para construir modelos preditivos.


Telegram


Resumo

Neste estudo, enfrentamos o desafio ético do viés algorítmico em sistemas de inteligência artificial (IA), uma questão de crescente importância à medida que a IA se torna onipresente em decisões críticas da vida real. Nosso trabalho é estruturado com os seguintes objetivos:

• Investigar a Presença de Viés: Utilizamos um dataset simulado em um cenário de seleção de candidatos para identificar o viés em grupos distintos com base em variáveis suscetíveis a discriminação.
• Aplicar Estratégias de Mitigação: Implementamos e avaliamos estratégias de mitigação de viés para promover a equidade nas taxas de seleção.
• Avaliar o Impacto das Estratégias: Medimos a eficácia das estratégias de mitigação através da análise de métricas como o disparate impacto e a igualdade de oportunidades.
• Contribuir com o Campo da Ética em IA: Oferecemos insights sobre abordagens efetivas para a criação de sistemas de IA justos e imparciais, ressaltando a importância da vigilância ética.

As descobertas deste estudo demonstram melhorias significativas na redução do viés algorítmico, após a aplicação de técnicas de ajuste e reavaliação de critérios de seleção, destacando a necessidade de integrar considerações éticas no desenvolvimento e implementação de IA.

Palavras-Chave: Viés Algorítmico, Inteligência Artificial, Mitigação de Viés, Ética em IA, Processo Seletivo.


Introdução

A era da informação digital em que vivemos é fortemente influenciada pela evolução contínua da inteligência artificial (IA). Essa influência é sentida em quase todos os aspectos da vida cotidiana, desde recomendações de produtos até decisões judiciais. Entretanto, o entusiasmo com estas capacidades avançadas é temperado por uma preocupação emergente: o viés algorítmico. Este viés, frequentemente sub-reconhecido e não intencional, tem o potencial de perpetuar desigualdades e injustiças, tornando imperativo o estudo e a mitigação de seus efeitos.

Este trabalho concentra-se incisivamente na identificação, análise e correção do viés algorítmico, uma preocupação ética premente na aplicação da IA. A relevância do tema advém da necessidade de assegurar que as decisões influenciadas pela IA sejam justas e imparciais, mantendo-se fiéis aos princípios de equidade e igualdade.

A motivação para este foco surge da observação de que, enquanto os algoritmos de IA se tornam mais autônomos e complexos, a transparência de suas decisões torna-se opaca, elevando o risco de resultados enviesados. O objetivo deste estudo é duplo: primeiro, explorar as manifestações do viés algorítmico em um conjunto de dados simulado, e segundo, avaliar a eficácia de estratégias de mitigação empregadas para combater esse viés.

Nosso método envolve uma abordagem prática, empregando ferramentas modernas e plataformas colaborativas como o Google Colab para experimentar e demonstrar as intervenções no viés. Com isso, não só avançamos no entendimento técnico do problema, mas também na conscientização sobre a necessidade de integração de práticas éticas na ciência de dados.

Este documento segue uma estrutura lógica, começando com uma revisão de literatura que contextualiza o viés algorítmico dentro do campo maior da ética em IA. A metodologia aplicada é detalhada subsequentemente, seguida de uma análise dos resultados obtidos e discussões pertinentes. Por fim, as conclusões destacam a importância crítica da vigilância contínua e do desenvolvimento de estratégias éticas na implementação de algoritmos de IA.


Trabalhos Relacionais

3.3.1 Estado da Arte em Ética na Inteligência Artificial:


O campo da Inteligência Artificial tem visto um crescimento notável, indicando uma conscientização cada vez maior sobre dilemas éticos associados ao avanço da IA. Aqui, oferecemos um panorama crítico de algumas pesquisas relevantes, fazendo conexões com suas contribuições para o campo.

- Viés e Equidade em Algoritmos de Aprendizado de Máquina (Barocas et al., 2019) [Barocas, 2019] Este estudo pioneiro investiga o viés algorítmico em aprendizado de máquina, propondo um framework para entender e mitigar tais vieses.

- Regulamentações de Proteção de Dados (GDPR e CCPA) [EU, 2016] [California, 2018]: Normativas de privacidade, como o GDPR e o CCPA, são cruciais na definição de padrões éticos para o manuseio de dados em IA.

- Modelos de Transparência e Interpretabilidade (Ribeiro et al., 2016) [Ribeiro, 2016]: O desenvolvimento de técnicas que aumentam a transparência e interpretabilidade em IA é essencial para elucidar as tomadas de decisão dos modelos.

Diretrizes Éticas em Corporações de Tecnologia:

- Diretrizes publicadas por conglomerados como Google e IBM salientam a importância de considerar impactos sociais e éticos na criação de produtos de IA.

- Iniciativas de IA Ética: Organizações como o Partnership on AI reúnem esforços de stakeholders globais para discutir e promover ética na IA.

- Estudo de Caso: O Desafio da Amazon com Viés em Recrutamento [Lavanchy, 2020]: A Amazon enfrentou críticas após seu sistema de recrutamento AI exibir preconceito contra mulheres, um episódio que sublinha a tendência de algoritmos replicarem preconceitos históricos e sociais.

- O trabalho depois dos 50 anos [Ministro de Estado do Planejamento, Orçamento e Gestão]: O aumento na participação dos trabalhadores mais velhos no mercado de trabalho e o declínio em sua taxa de atividade conforme avançam em idade, indicam mudanças significativas na dinâmica do emprego e necessidades dessa população. Políticas e programas de trabalho devem ser adaptados para refletir essas mudanças e garantir que os trabalhadores mais velhos possam continuar contribuindo para a economia de maneira significativa e digna.

Discussão: A inclusão do caso da Amazon revela uma faceta prática dos desafios éticos na IA. Este exemplo, demonstra como o viés pode ser inconscientemente codificado em sistemas. Da pesquisa realizada MPOG e Analise de Etnia em casos reais demonstra a desigualdade social salarial alta disparidade.

Conclusão: A análise do estado da arte na Ética da Inteligência Artificial reflete um engajamento progressivo com dilemas éticos fundamentais. Com a evolução contínua da tecnologia, é imperativo que a ética em IA evolua concomitantemente.


Metodologia

4.1.1 Formulação do Problema: Primeiramente, delineamos o problema do viés algorítmico, especificando as variáveis de interesse e os grupos afetados. Isso inclui a definição clara de viés e como ele se manifesta nos dados e nos resultados do algoritmo.

4.1.2 Seleção do Conjunto de Dados: Escolhemos um conjunto de dados fictício que representa um cenário de seleção de candidatos, contendo variáveis suscetíveis a viés, como idade, gênero, grupos, selecionado, pontuação e origem étnica. Este dataset foi projetado para simular desafios éticos reais, permitindo-nos explorar a presença e o impacto do viés algorítmico de forma controlada.

4.1.3 Análise Exploratória de Dados (EDA): Realizamos uma EDA extensiva para entender as características dos dados, identificar padrões iniciais, possíveis outliers ou inconsistências e preparar os dados para modelagem.

4.1.4 Implementação de Modelos de IA: Desenvolvemos modelos de IA usando técnicas de aprendizado de máquina para realizar a tarefa de seleção. Estes modelos foram treinados com o objetivo de identificar a presença de viés nos resultados.

4.1.5 Estratégias de Mitigação de Viés: Implementamos diversas estratégias de mitigação de viés algorítmico, incluindo reamostragem, ponderação de variáveis, e técnicas de aprendizado justo. Cada estratégia foi aplicada ao modelo de IA e seus efeitos foram documentados.

4.1.6 Avaliação de Resultados: Avaliamos os modelos utilizando métricas apropriadas como taxa de falsos positivos, falsos negativos, igualdade de oportunidades, e impacto disparado. Isso nos permitiu quantificar o viés nos modelos antes e após a aplicação das estratégias de mitigação.

4.1.7 Análise Crítica: Após a coleta de resultados, realizamos uma análise crítica para interpretar a eficácia das estratégias de mitigação. Esta análise considerou não apenas a performance do modelo, mas também a manutenção da utilidade e integridade dos dados.

4.1.8 Documentação e Reprodução: Toda a metodologia foi rigorosamente documentada, incluindo o código utilizado, que foi disponibilizado em repositórios públicos para permitir a verificação e reprodução dos experimentos por outros pesquisadores.

4.1.9 Considerações Éticas: Por fim, abordamos as considerações éticas envolvidas na pesquisa, destacando a importância do desenvolvimento responsável de IA e da constante avaliação de viés como uma prática padrão.


Resultados

Nesta seção, apresentaremos os resultados da nossa análise, destacando os principais insights obtidos ao longo do processo. Utilizaremos as métricas definidas na metodologia para avaliar o impacto das técnicas de correção de viés aplicadas no nosso conjunto de dados simulados. O dataset contém 8000 entradas com 6 colunas: 'Idade', 'Gênero', 'Grupo', 'Selecionado', 'Pontuação' e 'Origem Étnica'. Todos os campos estão completos, sem valores nulos, o que é excelente para a análise.

5.1.1 Identificando e corrigindo Outliers : Durante a analise descobrimos presença de outliers que poderiam precisar de correções, Pontuação: Varia de -19 a 119, com média de aproximadamente 49,7. Para tratar outliers na pontuação, uma abordagem comum é definir limites com base em alguma medida estatística, como a média e o desvio padrão. Este processo de correção é essencial para assegurar a integridade dos dados antes de prosseguirmos com a análise de viés e a implementação de estratégias de mitigação e a visualização facilita a comparação direta dos dados antes e depois do tratamento de outliers, mostrando que as medidas que tomamos foram eficazes em remover as anomalias dos dados. Com os dados devidamente preparados, estamos prontos para avançar para as próximas etapas do projeto.

Figura abaixo demonstra graficamente a resolução dos Outliers Antes e Depois da correção:

Resolução dos Outliers Antes e Depois da correção

5.1.2 Resultados da Correção de Viés de Gênero

Os resultados demonstram que a técnica de correção de viés de gênero foi eficaz e as taxas de seleção são mais altas para todos os gêneros, indicando uma seleção mais equitativa após os ajustes das ponderações.

O gráfico abaixo da taxa de seleção por gênero antes e depois da mitigação do víeis.

Taxa de Seleção por gênero antes e depois da mitigação do víeis

5.1.3 Resultados da Correção de Viés de Grupo:
Da mesma forma, A reamostragem resultou em taxas de seleção mais equilibradas entre os grupos, indicando uma seleção mais equitativa após o ajuste:

Taxa de Seleção por gênero antes e depois da mitigação do víeis

5.1.4 Análise das Disparidades de Seleção por Gênero e Grupo:

Observamos variações nas taxas de seleção entre os diferentes gêneros e grupos. Por exemplo, o gênero "Feminino" no "Grupo C" tinha uma taxa de seleção de aproximadamente 28.34%, enquanto o gênero "Masculino" no "Grupo B" tinha cerca de 23.00%. As taxas de seleção após a correção mostram um equilíbrio muito melhor entre gêneros e grupos. Por exemplo, o gênero "Feminino" em todos os grupos tem taxas de seleção próximas de 50%, mostrando um equilíbrio mais uniforme. Esta análise demonstra que as estratégias de mitigação de viés adotadas foram eficazes em equilibrar as taxas de seleção entre os diferentes gêneros e grupos, contribuindo significativamente para a redução das disparidades iniciais.

O gráfico da taxa de seleção por gênero e grupo antes e depois da correção:

Taxa de Seleção por Gênero e Grupo antes e depois da correção

5.1.5 Machine learning:

Utilizamos ML para analisar ainda mais profundamente o dataset, onde construímos modelos preditivos e avaliamos como as estratégias de mitigação de viés influenciam os resultados dos modelos onde preparamos e dividimos os dados em conjunto de treino de mais de cinco mil amostras e de testes mais de dois mil e cada amostra contém features idade, gênero, grupo, pontuação e origem étnica onde codificado numericamente.

O modelo adotado foi de regressão de logística que apresentou um desempenho excepcional no conjunto de testes com precisão, recall e pontuação F1 de 100% para ambas as classes (Selecionado e Não Selecionado) onde a pontuação AUC-ROC foi de 1.0, indicando uma excelente capacidade do modelo em diferenciar entre as classes. A matriz de confusão mostra uma perfeita classificação dos casos, com todas as previsões corretamente identificadas. Isso sugere que o modelo foi capaz de capturar com precisão os padrões nos dados que determinam a seleção de candidatos.

Figura abaixo da Matrix de Confusão do Modelo de Regressão de Logística:

Machine Learning, Matrix de Confusão do Modelo de Regressão de Logística:

5.1.6 Função de Previsão:

Criamos uma função que recebe os valores dos widgets como input e usa o modelo treinado para prever a probabilidade de seleção. Esta função também pode explicar como cada característica influencia a previsão.

5.1.7 Realização de Resultados:

Usamos gráficos para mostrar a probabilidade de seleção com base nas características atuais. Incluindo gráficos adicionais para fornecer contexto, como a distribuição de características nos dados. Integrar Tudo em um Dashboard.

Combinamos os widgets e as visualizações em um layout para criar um dashboard interativo. Certificando de que o dashboard atualize as previsões e visualizações em tempo real com base nas entradas do usuário

O gráfico abaixo mostrar a probabilidade de seleção do dashboard interativo.

Machine Learning, Matrix de Confusão do Modelo de Regressão de Logística:


Discussão

Criamos dados fictícios de taxas de seleção para três grupos étnicos, introduzimos um viés fictício e, em seguida, aplicamos a mitigação de viés ao adicionar um valor fixo a todas as taxas de seleção. Depois, calculamos as taxas de seleção médias antes e depois da mitigação e exibimos as estatísticas descritivas.

Os dados são fictícios e usados apenas para demonstrar a relação entre grupos étnicos e taxas de seleção antes e depois da mitigação de viés. Em um cenário real, usaríamos dados reais e técnicas adequadas para mitigar o viés e avaliar o impacto das ações tomadas. A discussão dos resultados de um estudo é uma parte crucial para entender o significado, a relevância e as limitações das descobertas e analisar os resultados fictícios.

Os resultados do estudo mostram que, antes da mitigação de viés, havia uma disparidade nas taxas de seleção entre diferentes grupos étnicos. Observamos diferenças nas taxas de seleção por gênero e grupo, indicando a presença de viés. Isso reforça a importância de uma análise detalhada dos dados antes de utilizá-los em decisões críticas.

A significância desses resultados reside no fato de que eles destacam a existência de um viés inicial no processo de seleção. A mitigação de viés demonstrou ser eficaz em nivelar as taxas de seleção, sugerindo que medidas éticas podem ser implementadas para promover a equidade no processo de seleção.

Os resultados são relevantes em um contexto da Ética na Inteligência Artificial e na tomada de decisões justas em processos de seleção, como contratação de funcionários. A descoberta de um viés inicial ressalta a importância de avaliar algoritmos de seleção de candidatos quanto à equidade e justiça.

A mitigação de viés é relevante porque demonstra que é possível tomar medidas para corrigir disparidades injustas. Isso é fundamental para garantir que as decisões de seleção não discriminem com base em características como etnia, gênero ou outras características protegidas.
É importante reconhecer as limitações dos resultados fictícios apresentados:


1 - Os dados são gerados de forma artificial e não representam um cenário real. Em situações reais, os dados podem ser mais complexos e ruidosos precisando aplicar técnicas em análise de dados.

2 - A mitigação de viés foi aplicada de maneira simplificada, adicionando um valor fixo a todas as taxas de seleção. Na prática, a mitigação de viés pode ser muito mais complexa e requerer métodos mais sofisticados.

3 - Os resultados são baseados em uma amostra fictícia e podem não refletir a realidade em todos os contextos.

4 - Além disso, é fundamental considerar que a mitigação de viés não é uma solução única para todos os casos. O tipo e a gravidade do viés podem variar, exigindo estratégias de mitigação específicas e com base nos resultados fictícios, podemos concluir que a identificação e mitigação de viés algorítmico são passos críticos para promover a equidade e a justiça em sistemas de IA. No entanto, é importante ressaltar que a mitigação de viés deve ser adaptada a contextos específicos e continuar a ser monitorada e ajustada ao longo do tempo e realizar auditorias regulares de algoritmos para identificar viés.

5 - Implementar estratégias de mitigação de viés de acordo com a natureza dos dados e do problema e continuar monitorando e avaliando o impacto das ações de mitigação.
Essa discussão ressalta a importância da ética na IA e da consideração cuidadosa das implicações de viés algorítmico em sistemas de tomada de decisão. Além disso, as implicações dessa mitigação, como a equidade alcançada nos resultados após a correção de viés e o sucesso em atingir o objetivo de tornar o processo de seleção mais justo e equilibrado entre os diferentes grupos étnicos. 


Conclusão

Concluímos que a correção de viés é fundamental para promover a igualdade de oportunidades e a justiça em seleções de candidatos. Recomendamos futuras pesquisas explorando técnicas avançadas em conjuntos de dados reais e a contínua avaliação da eficácia das correções.
Como perspectivas futuras, sugerimos as seguintes direções de pesquisa:
1- Explorar técnicas de correção de viés mais avançadas, considerando nuances específicas de conjuntos de dados reais.
2 - Investigar a aplicação de correção de viés em cenários de seleção de candidatos do mundo real para avaliar o impacto prático.
3 - Desenvolver métricas adicionais para medir a eficácia das correções de viés, considerando múltiplos aspectos da diversidade.
4 - Realizar estudos longitudinais para monitorar o desempenho de técnicas de correção ao longo do tempo e fazer ajustes conforme necessário.

Este trabalho contribui para o avanço do conhecimento no campo da correção de viés em seleção de candidatos, fornecendo insights sobre técnicas eficazes e destacando a importância da imparcialidade no processo de seleção.
Agradecemos a oportunidade de realizar este estudo e esperamos que nossas descobertas possam contribuir para a promoção de seleções de candidatos mais justas e equitativas em um futuro próximo.


Bibliografia

Para sustentar as análises e técnicas apresentadas neste estudo, recorremos a uma variedade de recursos acadêmicos e técnicos. Abaixo, listamos as principais referências que foram consultadas ao longo do trabalho:

- Barocas, S., Hardt, M., & Narayanan, A. (2019).

- Fairness and Machine Learning. course materials for the Fairness and Machine Learning (Fall 2019) course at Cornell Tech. https://fairmlbook.org/

- Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... & Vanderplas, J. (2011).

- Amazon. (2019). Amazon Web Services: Machine Learning Bias Detection and Mitigation. https://aws.amazon.com/machine-learning/bias-detection-and-mitigation/

- Scikit-learn: Machine learning in Python.
Journal of machine learning research, 12(Oct), 2825-2830. https://jmlr.csail.mit.edu/papers/volume12/pedregosa11a/pedregosa11a.pdf

- Python Software Foundation. (2021). Python 3.9.6 documentation. https://docs.python.org/3/

- Seaborn. (2021). Seaborn: statistical data visualization. https://seaborn.pydata.org/

- Pandas. (2021). pandas: powerful data analysis toolkit. https://pandas.pydata.org/

- Faker. (2021). Faker documentation. https://faker.readthedocs.io/en/master/ - Matplotlib. (2021). Matplotlib: plotting with Python. https://matplotlib.org/

- Google Colab

- O trabalho a partir dos 50 anos de idade (MPOG)

- IBGE https://ftp.ibge.gov.br/Indicadores_Sociais/Desigualdades_por_Cor_ou_Raca/xls/


Glossário

Acurácia (Accuracy)

Mede a proporção de previsões corretas feitas pelo modelo em relação ao total de previsões.

Algoritmos

Conjunto finito de regras bem definidas e não ambíguas, sequenciadas para resolver um problema em um número finito de etapas.

API

Conjunto de rotinas e padrões estabelecidos por um software para a utilização de suas funcionalidades.

AUC-ROC

Métrica para avaliar a qualidade de um modelo de classificação binária.

DataFrame

Estrutura bidimensional de dados, similar a uma tabela de banco de dados ou planilha.

Dataset

Conjunto de dados. Uma coleção de informações, geralmente apresentadas em formato tabular.

Drop

Método em pandas usado para excluir colunas ou linhas em um DataFrame.

Feature Engineering

Criação e manipulação de variáveis/características para melhorar a eficácia dos algoritmos.

F1-Score

Média harmônica de precisão e recall.

Imputer

Ferramenta usada para preencher dados ausentes.

Insights

Compreensões ou descobertas valiosas obtidas a partir da análise de dados.

LabelEncoder

Ferramenta para converter variáveis categóricas em formato numérico.

LogisticRegression

Modelo de regressão usado para previsão binária.

Matplotlib

Biblioteca Python para visualização de dados, oferecendo gráficos estáticos, animados e interativos.

Métricas

Medidas quantitativas usadas para avaliar o desempenho do modelo.

Mitigação de Viés

Correção de viés injusto em algoritmos de aprendizado de máquina.

NaN

Representação de dados ausentes ou indefinidos.

One-vs-Rest

Estratégia de classificação para problemas multiclasse.

Outliers

Valores que se desviam significativamente da norma em um conjunto de dados.

Plotly

Biblioteca Python para visualizações de dados interativos e de alta qualidade.

Precision

Medida da precisão de previsões positivas do modelo.

Recall

Medida da capacidade do modelo de encontrar todos os casos positivoso.

Regressão

Tipo de modelo que prevê valores contínuos.

>
Seaborn

Biblioteca Python baseada em matplotlib para visualização de dados estatísticos.

Sigmóide

Função usada na regressão logística que mapeia qualquer valor para um valor entre 0 e 1.

Sklearn

Função usada na regressão logística que mapeia qualquer valor para um valor entre 0 e 1.

hreshold

Limite usado para determinar a classe de uma previsão em modelos binários.

train_test_split

Limite usado para determinar a classe de uma previsão em modelos binários.

Validation

Teste de desempenho do modelo em dados não vistos.


Anexo
Dataset

Arquivo csv para fazer upload no Google Colab

Download

Notebook Colab

Arquivo para acessar no google colab passo à passo do nosso Trabalho

Download

Skilss
Portfólio

Dashboard de Vendas onde uso do pipeline de dados foi executado, e é uma série de processos automatizados que são executados em uma sequência específica para processar, transformar e analisar dados de maneira eficiente.

Este é um exemplo bastante simples de um pipeline de dados em Python em tempo real onde o cliente quer saber quais os produtos mais vendidos em tempo real e total de quantidades, tudo graficamente.

É Gerado um APP em tempo real onde é disponibilizado o acesso http://localhost:8050/gerente

A idéia aqui não é só mostrar a quantidade dos produtos vendidos mas aplicar estatística da quantidade em estoque por exemplo, Produto C vendido a 49%, assim você saberá a quantidade de produtos em reposição e garanhará tempo suficiente para reposição do traduto vendido economizando e recebendo o lucro esperado.

Para mais detalhes acesse no menu Video para ver o que acontece ao passar o mouse

venda de produtos

Video

Dashboard de Venda de Produtos em tempo real , para mais detalhes clique no meu Portfólio.


Fale Comigo





gustavobaesa.tech 2024