Extração Automática de Conteúdo Semi-Estruturado na Web: Estudo de Caso do Futebol Brasileiro

Autores

  • Alexandre S. de Melo Departamento de Ciência da Computação - Universidade Federal de Minas Gerais (UFMG)
  • Hendrik T. Macedo Departamento de Computação – Universidade Federal de Sergipe (UFS)

Palavras-chave:

Extração de Informação, Regras de Produção, JEOPS, Wrapper, Crawler

Resumo

Técnicas de Extração de Informação possibilitam geração automática de uma representação estruturada a partir de conteúdo não estruturado ou semi-estruturado. Informação estruturada possibilita ou facilita seu processamento por parte de aplicações Web diversas. Este trabalho  descreve a implementação de um sistema de extração automática de informação semi-estruturada na Web orientada a domínio. O sistema utiliza regras de produção baseada em objetos que produzem instâncias de classes que representam o domínio considerado. O sistema faz uso da API JEOPS, um motor de inferência de primeira ordem com encadeamento progressivo integrado à linguagem Java. Como estudo de caso, foi definido classes que representam o Campeonato Brasileiro de Futebol. O sistema recebe como entrada o endereço eletrônico de um portal Web e, fazendo uso de fatos e regras de sua base de conhecimento relacionada ao Campeonato Brasileiro, identifica links relacionados e navega no portal a fim de localizar a tabela de classificação do campeonato e extrair dados da tabela, produzindo de forma automática instâncias das classes especificadas. 

Biografia do Autor

Alexandre S. de Melo, Departamento de Ciência da Computação - Universidade Federal de Minas Gerais (UFMG)


Hendrik T. Macedo, Departamento de Computação – Universidade Federal de Sergipe (UFS)


Downloads

Como Citar

de Melo, A. S., & Macedo, H. T. (2011). Extração Automática de Conteúdo Semi-Estruturado na Web: Estudo de Caso do Futebol Brasileiro. Scientia Plena, 5(8). Recuperado de https://scientiaplena.emnuvens.com.br/sp/article/view/640