Introdução a Mineração de Dados

A mineração de dados refere-se à extração de conhecimento ou mineração de grandes quantidades de dados. O termo surgiu a partir da associação da mineração de ouro de rochas com os grandes volumes de dados. Assim, a mineração de dados deveria ter sido mais apropriadamente chamado de “extração de conhecimento a partir de dados” (HE, 2013).

Nos últimos anos, pode-se observar que a simples organização de dados associado aos método tradicional de análise e interpretação se torna extremamente lento e custoso, conforme os volumes de dados aumentavam, e o uso de técnicas de mineração de dados surge como uma alternativa para melhorar o processo de extração de dados (BRIGNOLI et. al., 2012).

A mineração de dados é um processo de busca de novas informações, valioso, no qual o progresso é definido pela descoberta iterativa em grandes volumes de dados, através de métodos manuais ou automáticos (KUSIAK e VERMA, 2012).

Segundo Mehmed Kantardzic (KANTARDIZIC, 2003), são utilizadas técnicas para auxiliar na mineração de dados, tais como: árvore de decisão, descobertas de regras de associação, redes neurais artificiais, algoritmos genéticos, lógica fuzzy, redes bayesianas, agentes inteligentes e raciocínio baseado em casos.

Para extrair conhecimentos que sejam úteis, interessantes e previamente desconhecidas é necessário aplicar um processo como mostra a Figura 01. Este processo é aplicado em qualquer método escolhido para minerar dados. As etapas de seleção, pré-processamento e formatação são responsáveis por transformar os dados de entrada em um formato apropriado para mineração. Este, normalmente, é o passo mais trabalhosos e demorado do processo de descoberta de conhecimento. Na etapa de mineração de dados é aplicado o algoritmo minerador e, no último passo, o conhecimento extraído é filtrado, avaliado e interpreto. Várias são as técnicas e algoritmos utilizados em cada um dos passos.

Processo de Mineração de dados

Figura 01 – Processo de mineração de dados (FAYYAD, 1996).

Áreas de Aplicação

A mineração de dados pode ser considerada eclética quanto a sua gama de aplicação existente. Destacamos as principais áreas de interesse na utilização de mineração de dados relatados em diversos trabalhos científicos, tais como (MENEZES, 2012):

  • Marketing – São aplicadas para descobrir preferências do consumidor.
  • Detecção de Fraudes – São utilizadas para definir o perfil dos cliente.
  • Medicina – São utilizados para definir as características dos pacientes, psicologia humana, análise de doenças, saúde pública.
  • Ciência – São aplicadas para ajudar nas pesquisas e encontrar padrões em estruturas moleculares, qualidade da água, dados genéticos, mudanças de clima e entre outros.
  • Controle de Processos – São aplicadas para auxiliar no planejamento estratégico.
  • Web – São aplicadas para determinar perfis de usuários em redes sociais, comércio eletrônico, educação a distância e entre outros.
  • Apólice de Seguro – São utilizadas para análise de reivindicações.
  • Transporte – São utilizadas para determinar distribuições de produtos.
  • Telecomunicações – São aplicadas para determinar melhorias do serviço de acordo com o consumo.
  • Defesa Civil – São aplicadas para determinar as áreas de risco.
  • Engenharia – São aplicadas para determinar locais de instalação de estações de energia eólicas, hidrelétricas e entre outros.
  • Computação – São aplicadas para medir desempenho de SGBD,  aprendizagem de máquinas e entre outros.

Desafios da Mineração de Dados

As crescentes complexidades dos problemas existentes em diversas áreas do conhecimento e as melhorias constantes na tecnologia têm colaborado para novos desafios na mineração de dados, os vários desafios incluem diferentes formatos de dados e locais diferentes, entre outros (PAIDI, 2012):

  • Luta contra o Terrorismo: Os Estados Unidos laçaram o programa Total Information Awareness (LEE, 2012), com o objetivo de criar uma enorme base de dados que consolide todas as informações sobre a população. O projeto enfrenta alguns problemas não solucionados:
    • A heterogeneidade dos dados: o banco de dados lida com dados de texto, áudio, imagem e multimídia.
    • A escalabilidade de algoritmos: o tempo de execução aumenta à medida que o tamanho dos dados aumenta.
  • Bio-informática e cura de doenças: A mineração de dados é aplicada na interpretação de estruturas e sequências biológicas com o intuito de buscar os genes que causam doenças como câncer e AIDS para propor a cura. O Tanupriya Choudhury (CHOUDHURY et.al., 2013) propõem uma revisão das técnicas de inteligência artificial aplicadas na predição de câncer a partir de imagens e concluí que a técnica de predição requer melhorias com o uso de técnicas de algoritmos genéticos e colônias de formigas.
  • Mineração de Dados Distribuídos: Grande parte da mineração de dados que é feito atualmente com banco de dados ou data warehouse que está fisicamente localizado em um só lugar. Portanto, o objetivo é extrair efetivamente dados distribuídos, que está localizado em locais heterogêneos (JAIN, 2013).
  • Mineração de Dados Ubíquos: Com o advento dos dispositivos computacionais (laptops, palmtops, telefones celulares, tablets e etc) estes fazem acesso ubíquo de grande quantidade de dados. A análise avançada dos dados para a extração de conhecimento útil é o próximo passo para a computação ubíqua.
  • Mineração de dados Multimídia: Possibilidade de mineração e análise de vários tipos de dados, incluindo imagem, vídeo, áudio e animações. Como a mineração de dados multimídia incorpora as áreas de mineração de texto, bem como mineração hipertexto/hipermídia. Grande parte da informação que descreve essas outras áreas também se aplica à mineração de dados multimídia.
  • Mineração de dados Espaciais e Geográficas: É a extração de conhecimento implícito, relações espaciais, ou outros padrões que não são explicitamente armazenados em bancos de dados espaciais. Alguns dos componentes de dados espaciais que o diferenciam de outros tipos incluem a distância e informação topológica, que pode ser indexado usando estruturas multidimensionais e métodos de acesso a dados espaciais especiais, juntamente com a representação do conhecimento espacial e a capacidade de lidar com cálculos geométricos.
  • Mineração de dados baseada em fenômenos: É a parte do desafio em criar uma base de conhecimento envolvendo a codificação do senso comum numa base de dados, o qual provou ser um problema difícil.
  • Padronização das linguagens para Mineração de Dados: Existem várias ferramentas de mineração de dados com diferentes sintaxes. As aplicações de mineração de dados tem que ter padronização de linguagens e de interações flexível para o usuário (VENKATADRI e REDDY, 2011).
  • Mineração de dados em Redes de Computadores: A internet de alta velocidade tem colocado uma grande demanda por novas e eficientes técnicas de mineração de dados para analisar os dados que são capturadas de pacotes IP, a fim de detectar o Denial of Service (DoS) e outros tipos de ataques (VENKATADRI e REDDY, 2011).

Conclusão

Como pudemos observar a mineração de dados é uma área de pesquisa bastante ampla e com diversas aplicações. Os desafios existentes faz com que a mineração de dados seja uma área de grandes resultados futuros.

Espero ter colaborado para a melhoria dos seus conhecimentos. Até o próximo artigo!

Prof. Norton Guimarães
@nortoncg

Referências

BRIGNOLI, J.; JUNIOR, E. S.; MIGUEZ, V.; SANTOS, N.; SPANHOL, F. A intervenção humana na qualificação de processos de data mining: estudo de caso em uma base de dados hipotética. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, 2012.

CHOUDHURY, T.; KUMAR, V.; NIGAM, D. Cancer research through the help of soft computing techniques: A survey. IJCSMC, 2(4):467 – 477, 2013.

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. Advances in knowledge discovery and data mining. American Association for Artificial Intelligence, Menlo Park, CA, USA, 1996.

HE, W. Examining students online interaction in a live video streaming environment using data mining and text mining. Computers in Human Behavior, 29(1):90 – 102, 2013.

JAIN, A. K. Survey of recent clustering techniques in data mining. jPublication Jornal, 01(3), 2013.

LEE, N. Facebook Nation: Total Information Awareness. Springer Publishing Company, Incorporated, 2012.

MENEZES, V. S. d. A. Análise de redes sociais científicas, 2012. Tese (Doutorado em Engenharia de Sistemas e Computação – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro, Brasil. Disponível em: <http://objdig.ufrj.br/60/teses/coppe_d/VictorStroeleDeAndradeMenezes.pdf>. Acesso em: 07 jun. 2016.

KANTARDIZIC, M. Data Mining: Concepts, Models, Methods and Algorithms. John Wiley & Sons, Inc., New York, NY, USA, 2003.

KUSIAK, A.; VERMA, A. Analyzing bearing faults in wind turbines: A data-mining approach. Renewable Energy, 48(0):110 – 116, 2012.

PAIDI, A. N. Data mining: Future trends and applications. IJMER, 2(6):4657–4663, 2012.

VENKATADRI, M.; REDDY, L. C. Article: A review on data mining from past to the future. International Journal of Computer Applications, 15(7):19–22, February 2011. Published by Foundation of Computer Science.

Facebooktwittergoogle_plusredditpinterestlinkedinmail

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *