Escola de Ciência da Informação da UFMG

PROJETO   INDEXA

 Sistema de Indexação de Recursos Web
 

Sumário

1     Introdução.. 2

2     Projeto INDEXA: uma visão geral.. 2

3     Resultados esperados.. 3

5     Bibliografia.. 4

 

Coordenador do projeto:

Prof. Dr Marcello Peixoto Bax
Professor Adjunto da
Escola de Ciência da Informação
 Universidade Federal de Minas Gerais

Resumo

Pesquisas sobre como organizar as informações disponíveis na Web originaram vários “Mecanismos de Busca” que constituem hoje as ferramentas mais utilizadas para a recuperação de informações na Internet. Inúmeras pesquisas ainda procuram incrementar os processos de indexação, melhorando a relevância e a velocidade da recuperação de informações na Web. Porém, nota-se que estes processos automáticos de geração de metadados (índices) na Web são ainda deficientes. A idéia básica do projeto é a de que o processo de indexação pode ser auxiliado pelo preparo prévio dos documentos a serem indexados. Se o documento HTML a ser indexado contiver as meta-informações usadas pelos mecanismos, o processo de indexação é então potencializado, resultando não só em índices de melhor qualidade, como também num diferencial competitivo para os websites preparados. O projeto INDEXA vem explorando esta via de pesquisa que, juntamente com a primeira, tem a colaborar para a melhoria do processo geral de recuperação de informações na Web. O objetivo é conceber uma ferramenta que faça uma análise automatizada de quão bem preparado está o documento antes que este seja submetido (também automaticamete) aos mecanismos de busca. A idéia por trás da ferramenta INDEXA atingirá sua plenitude em breve, quando os principais mecanismos de busca estiverem utilizando padrões genéricos de descrição de recursos tais como o RDF (www.w3c.org/RDF).

1         Introdução

O presente documento apresenta o projeto INDEXA (Sistema de Indexação de Sites em Mecanismos de Busca na Internet), descrito na Seção 2, que visa a concepção de uma ferramenta automatizada capaz de auxiliar a todas as organizações que disponibilizam informação na Web a preparar seus websites para que estes sejam bem classificados e indexados pelos mecanismos de busca na Web.

Este documento é estruturado como segue: na Seção 2, apresenta-se a motivação que deu origem ao projeto e especifica-se seus objetivos gerais. A Seção 3 relaciona os principais resultados já atingidos e aqueles esperados do projeto. Na Seção 4, são apresentados os recursos disponíveis para sua realização, bem como os antecedentes da equipe que compõe o projeto.

2         Projeto INDEXA – visão geral / objetivos

Desde o início da Internet, no início dos anos 70, existem pesquisas sobre como organizar as informações disponíveis na Rede. Na primeira metade dos anos 90, com o desenvolvimento tecnológico e a abertura comercial da Web, estas pesquisas originaram várias aplicações denominadas de “Mecanismos de Busca” que constituem hoje o método mais utilizado de recuperação de informações na Web. As pesquisas originaram-se nas universidades e geraram ferramentas comerciais, criando riqueza para as nações que nelas investiram.

Várias pesquisas ainda são feitas nesta área, que procuram incrementar ainda mais os processos de indexação, melhorando a relevância e a velocidade da recuperação de informações na Web. Os processos de indexação automáticos assistidos por software, utilizados pelos mecanismos, estão no cerne destas pesquisas. A própria UFMG tem sido referência nesta área de pesquisa.

Porém, nota-se que estes processos automáticos estão longe da perfeição e dependem, em grande parte, do preparo prévio dos documentos a serem indexados, uma tarefa para especialistas. Se a “página” (documento HTML) a ser indexada contiver as meta-informações usadas pelos mecanismos, o processo de indexação é então potencializado, resultando em índices de melhor qualidade.

O projeto INDEXA procura explorar esta “via paralela” de pesquisa que, juntamente com a primeira, vai colaborar para a melhoria do processo geral de recuperação de informações na Web. Assim, nosso objetivo é conceber uma ferramenta que permita, àquelas organizações que produzam informações, fazerem uma análise automatizada de quão bem preparados estão os documentos antes que estes sejam submetidos aos mecanismos de busca. Ou seja, uma aplicação que é capaz de analisar as informações de uma página HTML e propor modificações e ajustes, alguns automáticos e outros manuais, com vistas a auxiliar os processos de indexação utilizados pelos cinco mais populares mecanismos de busca na Web.

É importante citar ainda que não há nenhum trabalho de pesquisa feito na área sobre os mecanismos de busca Brasileiros. Esta é uma outra motivação para nosso projeto. Ou seja, identificar os fatores regionais que podem vir a influir no processo de classificação (por parte dos mecanismos de busca) e no processo de análise da ferramenta proposta pelo projeto.

3         Resultados já alcançados e outros esperados

O projeto INDEXA está em andamento na Escola de Ciência da Informação da UFMG há 8 meses, e, apesar dos poucos recursos até então disponibilizados, já deu origem a 2 publicações de artigos em congressos nacionais. A arquitetura da ferramenta encontra-se especificada e uma primeira versão piloto foi implementada como uma Aplicação Web, utilizando-se a linguagem JAVA (servlets e JSP). O website da ferramenta piloto foi concebido e está disponível no endereço “http://www.indexa.com.br/”.

Este trabalho de desenvolvimento de uma plataforma de software vem servindo para a experimentação das tecnologias mais recentes estudadas pela área da Ciência da Informação que concernem o desenvolvimento de Bibliotecas Digitais e, mais genericamente, a organização e a recuperação da informação na Web.

Tendo como pano de fundo o desenvolvimento e a evolução da infra-estrutura de software proposta, o projeto continuará a gerar publicações científicas e formação de pessoal qualificado em nível de graduação e pós-graduação. Espera-se que este projeto contribua para a formação de pelo menos mais quatro bolsistas de iniciação científica e de dois mestrandos. Espera-se também que ele dê origem à pelo menos duas publicações no ano de 2001, apresentando seus resultados parciais.

4         Referência Bibliográfica

1.     BAX, M. “Projeto SABiO: Sistema de Agentes para Bibliotecas Online”. Projeto submetido para pedido de bolsas PIBIC/CNPq (2 bolsas acordadas). Relatório técnico n. RT02/97 da Escola de Ciência da Informação da UFMG, março, 1997.

2.     BAX, M. “As Bibliotecas na Web e Vice-versa”. Artigo em submissão à Revista INFORMARE do IBICT (Instituto Brasileiro de Informação em Ciência e Tecnologia). Rio de Janeiro, Junho, 1997.

3.     RUMBAUGH et al. “Modelagem e Projetos Baseados em Objetos”. Editora Campos, Rio de Janeiro, 1994.

4.     BARBOSA R., Cendon B., Caldeira, P., Bax, M., “Novo nome e novo paradigma: da biblioteconomia à ciência da informação”, Perspectivas em Ciência da Informação, Escola de Ciência da Informação da UFMG, v5, número especial, p.81-91.

5.     BAX, M. P, and Meira, W., “Agentes para o Comércio Eletrônico no Mercado de Seguros”, Perspectivas em Ciência da Informação, Escola de Ciência da Informação da UFMG , v5, n2, p.255-265.

6.     BAX, Marcello P. and Campos, Fernando. "Introdução às Linguagens de Marcas", Anais do XIX Congresso Brasileiro de Biblioteconomia e Documentação, v.1, Porto Alegre, setembro, 2000.

7.     BAX, Marcello P. and Campos Fernando. "Como as Máquinas de Buscas Indexam Páginas HTML", Anais do XIX Congresso Brasileiro de Biblioteconomia e Documentação, v.1, Porto Alegre, setembro, 2000.

8.     BAX, Marcello P. “Introdução às Linguagens de Marcas” Ciência da Informação”, [versão revisada] Revista Ciência da Informação do IBICT. Artigo aceito para publicação no n.3 de 2001.