|
Escola de Ciência da
Informação da UFMG |
PROJETO INDEXA
Sistema de Indexação de Recursos Web
Sumário
2 Projeto INDEXA: uma visão geral
Coordenador do projeto:
Prof. Dr Marcello Peixoto Bax
Professor Adjunto da
Escola de Ciência da Informação
Universidade Federal de Minas Gerais
Resumo
Pesquisas sobre como organizar as informações
disponíveis na Web originaram vários “Mecanismos de Busca” que constituem hoje
as ferramentas mais utilizadas para a recuperação de informações na Internet.
Inúmeras pesquisas ainda procuram incrementar os processos de indexação,
melhorando a relevância e a velocidade da recuperação de informações na Web.
Porém, nota-se que estes processos automáticos de geração de metadados
(índices) na Web são ainda deficientes. A idéia básica do projeto é a de que o
processo de indexação pode ser auxiliado pelo preparo prévio dos documentos a serem
indexados. Se o documento HTML a ser indexado contiver as meta-informações
usadas pelos mecanismos, o processo de indexação é então potencializado,
resultando não só em índices de melhor qualidade, como também num diferencial
competitivo para os websites preparados. O projeto INDEXA vem explorando esta
via de pesquisa que, juntamente com a primeira, tem a colaborar para a melhoria do processo geral de
recuperação de informações na Web. O
objetivo é conceber uma ferramenta que faça uma análise automatizada de quão bem preparado está o documento antes
que este seja submetido (também automaticamete) aos mecanismos de busca.
A idéia por trás da ferramenta INDEXA atingirá sua plenitude em breve, quando
os principais mecanismos de busca estiverem utilizando padrões genéricos de
descrição de recursos tais como o RDF (www.w3c.org/RDF).
O presente documento apresenta o projeto INDEXA (Sistema de Indexação de Sites em Mecanismos de Busca na Internet), descrito na Seção 2, que visa a concepção de uma ferramenta automatizada capaz de auxiliar a todas as organizações que disponibilizam informação na Web a preparar seus websites para que estes sejam bem classificados e indexados pelos mecanismos de busca na Web.
Este documento é estruturado como segue: na Seção 2, apresenta-se a motivação que deu origem ao projeto e especifica-se seus objetivos gerais. A Seção 3 relaciona os principais resultados já atingidos e aqueles esperados do projeto. Na Seção 4, são apresentados os recursos disponíveis para sua realização, bem como os antecedentes da equipe que compõe o projeto.
Desde o início da
Internet, no início dos anos 70, existem pesquisas sobre como organizar as
informações disponíveis na Rede. Na primeira metade dos anos 90, com o
desenvolvimento tecnológico e a abertura comercial da Web, estas pesquisas
originaram várias aplicações denominadas de “Mecanismos de Busca” que
constituem hoje o método mais utilizado de recuperação de informações na Web.
As pesquisas originaram-se nas universidades e geraram ferramentas comerciais,
criando riqueza para as nações que nelas investiram.
Várias pesquisas ainda
são feitas nesta área, que procuram incrementar ainda mais os processos de
indexação, melhorando a relevância e a velocidade da recuperação de informações
na Web. Os processos de indexação automáticos assistidos por software,
utilizados pelos mecanismos, estão no cerne destas pesquisas. A própria UFMG
tem sido referência nesta área de pesquisa.
Porém, nota-se que estes
processos automáticos estão longe da perfeição e dependem, em grande parte, do
preparo prévio dos documentos a serem indexados, uma tarefa para especialistas.
Se a “página” (documento HTML) a ser indexada contiver as meta-informações
usadas pelos mecanismos, o processo de indexação é então potencializado,
resultando em índices de melhor qualidade.
O projeto INDEXA procura explorar esta “via
paralela” de pesquisa que, juntamente com a primeira, vai colaborar para a
melhoria do processo geral de recuperação de informações na Web. Assim, nosso
objetivo é conceber uma ferramenta que permita, àquelas organizações que
produzam informações, fazerem uma análise automatizada de quão bem preparados
estão os documentos antes que estes sejam submetidos aos mecanismos de busca.
Ou seja, uma aplicação que é capaz de analisar as informações de uma página
HTML e propor modificações e ajustes, alguns automáticos e outros manuais, com
vistas a auxiliar os processos de indexação utilizados pelos cinco mais
populares mecanismos de busca na Web.
É importante citar ainda que não há nenhum trabalho de pesquisa feito na área sobre os mecanismos de busca Brasileiros. Esta é uma outra motivação para nosso projeto. Ou seja, identificar os fatores regionais que podem vir a influir no processo de classificação (por parte dos mecanismos de busca) e no processo de análise da ferramenta proposta pelo projeto.
O projeto INDEXA está em andamento na Escola de Ciência da Informação da UFMG há 8 meses, e, apesar dos poucos recursos até então disponibilizados, já deu origem a 2 publicações de artigos em congressos nacionais. A arquitetura da ferramenta encontra-se especificada e uma primeira versão piloto foi implementada como uma Aplicação Web, utilizando-se a linguagem JAVA (servlets e JSP). O website da ferramenta piloto foi concebido e está disponível no endereço “http://www.indexa.com.br/”.
Este trabalho de desenvolvimento de uma plataforma de software vem servindo para a experimentação das tecnologias mais recentes estudadas pela área da Ciência da Informação que concernem o desenvolvimento de Bibliotecas Digitais e, mais genericamente, a organização e a recuperação da informação na Web.
Tendo como pano de fundo o desenvolvimento e a evolução da infra-estrutura de software proposta, o projeto continuará a gerar publicações científicas e formação de pessoal qualificado em nível de graduação e pós-graduação. Espera-se que este projeto contribua para a formação de pelo menos mais quatro bolsistas de iniciação científica e de dois mestrandos. Espera-se também que ele dê origem à pelo menos duas publicações no ano de 2001, apresentando seus resultados parciais.
1. BAX, M. “Projeto SABiO: Sistema de Agentes para
Bibliotecas Online”. Projeto submetido para pedido de bolsas PIBIC/CNPq (2
bolsas acordadas). Relatório técnico n. RT02/97 da Escola de Ciência da
Informação da UFMG, março, 1997.
2. BAX, M. “As Bibliotecas na Web e Vice-versa”.
Artigo em submissão à Revista INFORMARE do IBICT (Instituto Brasileiro de
Informação em Ciência e Tecnologia). Rio de Janeiro, Junho, 1997.
3. RUMBAUGH et al. “Modelagem
e Projetos Baseados em Objetos”. Editora Campos, Rio de Janeiro, 1994.
4.
BARBOSA R.,
Cendon B., Caldeira, P., Bax, M., “Novo nome e novo paradigma: da
biblioteconomia à ciência da informação”, Perspectivas em Ciência da
Informação, Escola de Ciência da Informação da UFMG, v5, número especial,
p.81-91.
5.
BAX, M. P, and
Meira, W., “Agentes para o Comércio Eletrônico no Mercado de Seguros”,
Perspectivas em Ciência da Informação, Escola de Ciência da Informação da UFMG
, v5, n2, p.255-265.
6.
BAX, Marcello P.
and Campos, Fernando. "Introdução às Linguagens de Marcas",
Anais do XIX Congresso Brasileiro de Biblioteconomia e Documentação, v.1, Porto
Alegre, setembro, 2000.
7.
BAX, Marcello P.
and Campos Fernando. "Como as Máquinas de Buscas Indexam Páginas HTML",
Anais do XIX Congresso Brasileiro de Biblioteconomia e Documentação, v.1, Porto
Alegre, setembro, 2000.
8.
BAX, Marcello P.
“Introdução às Linguagens de Marcas” Ciência da Informação”, [versão
revisada] Revista Ciência da Informação do IBICT. Artigo aceito para publicação
no n.3 de 2001.