Pgina inicial do IPT  >  Ensino / Cursos  >  Solues  >   Dissertaes

Ps-graduao IPT


Dissertaes


compartilhe

Uma proposta de arquitetura para a publicao interativa da classificao dos dados obtida por meio de uma Differentially Private Random Decision Forest


por PEREIRA, Rosinei Cristiano


Estatistcas

Visitas: 293
Downloads: 74


Orientao: LOPES, Fbio

Ano: 2019

 Dados são gerados em diversos contextos, por diversos dispositivos, e são coletados por organizações para obter informação e agregar valor aos seus negócios. Os propósitos, éticos ou não, são diversos: identificar a necessidade dos consumidores para então recomendar produtos e serviços, desenvolver novas linhas de negócio, conduzir pesquisas relacionadas à saúde para reduzir erros médicos, avaliar o risco de pessoas desenvolverem doenças, dentre outras. A consciência e preocupação das organizações sobre os riscos relacionados a possíveis vazamentos de privacidade e seus impactos também tem aumentado consideravelmente. Neste sentido, conduzir estudos que empregam a mineração dos dados na otimização de processos sem comprometer os dados confidenciais e prover um forte padrão de privacidade são desafios impostos aos curadores dos dados. Então estes profissionais fazem uso de técnicas e modelos de privacidade, como o Differential Privacy, para poderem publicar os dados. Este estudo propõe a arquitetura de uma aplicação de classificação de dados por meio de árvores de decisão que atende a definição do modelo Differential Privacy. O aplicativo desenvolvido permitiu implantar uma barreira que impede o acesso direto aos dados em seu formato bruto, entregando resultados com adição de ruído, mas sem comprometer as características estatísticas do conjunto de dados original. De modo complementar foi implementada, com relativo sucesso, a funcionalidade de auto ajuste para a quantidade de árvores que devem ser adicionadas à floresta. O crescimento dinâmico permitiu avaliar a parametrização mais adequada ao contexto do estudo e demonstrou bons resultados uma vez que se observou, na maioria dos conjuntos de dados utilizados neste estudo, a existência de um limiar a partir do qual o incremento do número de árvores que compõem a floresta se torna prejudicial ao desempenho da classificação.

Acesse: cassiopea.ipt.br/teses/2019_EC_Rosinei.pdf