
Ps-graduao IPT
Dissertaes
Uma proposta de arquitetura para a publicao interativa da classificao dos dados obtida por meio de uma Differentially Private Random Decision Forest
por PEREIRA, Rosinei Cristiano
Estatistcas
Visitas: 1197
Downloads: 277
Orientao: LOPES, Fbio
Ano: 2019
Dados são gerados em diversos contextos, por diversos dispositivos, e são coletados por organizações para obter informação e agregar valor aos seus negócios. Os propósitos, éticos ou não, são diversos: identificar a necessidade dos consumidores para então recomendar produtos e serviços, desenvolver novas linhas de negócio, conduzir pesquisas relacionadas à saúde para reduzir erros médicos, avaliar o risco de pessoas desenvolverem doenças, dentre outras. A consciência e preocupação das organizações sobre os riscos relacionados a possíveis vazamentos de privacidade e seus impactos também tem aumentado consideravelmente. Neste sentido, conduzir estudos que empregam a mineração dos dados na otimização de processos sem comprometer os dados confidenciais e prover um forte padrão de privacidade são desafios impostos aos curadores dos dados. Então estes profissionais fazem uso de técnicas e modelos de privacidade, como o Differential Privacy, para poderem publicar os dados. Este estudo propõe a arquitetura de uma aplicação de classificação de dados por meio de árvores de decisão que atende a definição do modelo Differential Privacy. O aplicativo desenvolvido permitiu implantar uma barreira que impede o acesso direto aos dados em seu formato bruto, entregando resultados com adição de ruído, mas sem comprometer as características estatísticas do conjunto de dados original. De modo complementar foi implementada, com relativo sucesso, a funcionalidade de auto ajuste para a quantidade de árvores que devem ser adicionadas à floresta. O crescimento dinâmico permitiu avaliar a parametrização mais adequada ao contexto do estudo e demonstrou bons resultados uma vez que se observou, na maioria dos conjuntos de dados utilizados neste estudo, a existência de um limiar a partir do qual o incremento do número de árvores que compõem a floresta se torna prejudicial ao desempenho da classificação.
Acesse: cassiopea.ipt.br/teses/2019_EC_Rosinei.pdf