Extração Automática de Conteúdo Semi-Estruturado na Web: Estudo de Caso do Futebol Brasileiro

Alexandre S. de Melo, Hendrik T. Macedo

Resumo


Técnicas de Extração de Informação possibilitam geração automática de uma representação estruturada a partir de conteúdo não estruturado ou semi-estruturado. Informação estruturada possibilita ou facilita seu processamento por parte de aplicações Web diversas. Este trabalho  descreve a implementação de um sistema de extração automática de informação semi-estruturada na Web orientada a domínio. O sistema utiliza regras de produção baseada em objetos que produzem instâncias de classes que representam o domínio considerado. O sistema faz uso da API JEOPS, um motor de inferência de primeira ordem com encadeamento progressivo integrado à linguagem Java. Como estudo de caso, foi definido classes que representam o Campeonato Brasileiro de Futebol. O sistema recebe como entrada o endereço eletrônico de um portal Web e, fazendo uso de fatos e regras de sua base de conhecimento relacionada ao Campeonato Brasileiro, identifica links relacionados e navega no portal a fim de localizar a tabela de classificação do campeonato e extrair dados da tabela, produzindo de forma automática instâncias das classes especificadas. 

Palavras-chave


Extração de Informação, Regras de Produção, JEOPS, Wrapper, Crawler

Texto completo:

PDF

Apontamentos

  • Não há apontamentos.


Direitos autorais 2016 Scientia Plena
Licença Creative Commons
Todo conteúdo deste periódico, salvo quando explicitado de forma diferente, está licenciado com uma Licença Creative Commons Atribuição 4.0 Internacional.