Recuperação de Informação

A recuperação de informação (Sigla RI ou IR para Information retrieval) está presente em todo o processo de encontrabilidade, onde um indivíduo busca por determinada informação através de uma coleção de documentos, por exemplo. Essa busca pode ocorrer com o objetivo de recuperar resultados em diferentes tipos de mídias, dentre elas:
  • Livros em uma biblioteca: busca por livros relacionados a um assunto em uma biblioteca, onde através de prateleiras, uma pessoa pode verificar a ordem de classificação, bem como folhear e consultar livros;
  • Páginas de websites: onde é possível buscar por informações, realizar transações e navegar de uma página a outra através de links;
  • Vídeos em uma videoteca: as mesmas ações de uma biblioteca, só que nesse caso é direcionado ao audiovisual;
Trata-se de uma área de conhecimento (considerada por alguns como ciência) que tem como principal objetivo a encontrabilidade de informações. Primeiramente, vou contextualizar historicamente a RI, para que seja possível ao leitor entender como eram recuperados documentos em outros tempos. Em seguida, escrevo sobre a relação dos mecanismos de busca com a recuperação de informação e sobre interfaces de busca em websites. E, para finalizar, (próximo post) falo sobre a impotância da Inteligência Artificial nos atuais métodos de recuperação de informação existentes.

Nota: o que me motivou a escrever esse post foi perceber, com a ajuda de elementos históricos e uma boa carga bibliográfica (veja no final deste primeiro e do segundo post) que a busca na Internet está muito além do SEM (SEO + PPC), pois o conceito ultrapassa todas as barreiras tecnológicas, passando pela própria história do conhecimento humano.

Contextualização histórica

Não acredito que a recuperação de informação seja uma área destinada exclusivamente a recursos computacionais. Segundo Burke e Briggs (2006, p.27), recuperar informação é um problema antigo, pois já no século XVI existia um volume relevante de informação impressa.
"Olhemos desse ponto de vista a tão propalada 'explosão' de informação - metáfora imprópria reminiscente da póvora - que se seguiu à invenção dos impressos. As questões mais graves eram as de recuperação de informação e, ligada a isso, a seleção e crítica de livros e autores. Havia a necessidade de novos métodos  de administração de informação, assim como hoje em dia, nos primeiros tempos da Internet."
Sendo assim, os métodos de recuperação de informação passaram a ser exercidos constantemente, desde que o volume de elementos impressos aumentou em quantidade significativa, principalmente após o advento da prensa de Gutenberg. Os documentos de variadas origens passaram a ser impressos e, com isso, recuperar determinada informação era um trabalho que transcorria através de um processo manual e pouco sofisticado.
"No início da idade média, o problema havia sido a falta de livros, a escassez. No século XVI, foi o oposto. Um escritor italiano queixou-se em 1550 de que havia 'tantos livros que não temos nem tempo de ler os títulos'. Os volumes eram uma floresta em que os leitores podiam se perder, de acordo com o reformador João Calvino (1509-64). Era um oceano no qual os leitores tinham de navegar, ou uma enchente de material impresso em que era difícil não se afogar." (Ibidem, p.27)
Quando impressos passaram a ser organizados nas bibliotecas, alguns escritores como Gabriel Naudé sugestionavam que fossem classificados em ordem de faculdades, em categorias como: história, filosofia, matemática, humanidades, entre outras (BURKE, 2003, p.98).

Poderíamos comparar esse estilo de organização, baseado em áreas, aos diretórios conhecidos como: DMOZ, Yahoo!, dentre outros. Ou seja, é possível acreditar que a recuperação de informação foi e sempre será algo que independe de uma determinada tecnologia, pois se trata de uma ação que ocorre diariamente no mundo físico e virtual.

biblioteca da Universidade de Leiden
Imagem 01: Organização de informação através de campos de estudo na biblioteca da universidade de Leiden (Estantes organizadas em: theology, jurisprudence, medicine, history, philosophy, mathematics e literature).

diretório DMOZ
 Imagem 02: Diretório DMOZ. Organização de tópicos através de categorias.

No entanto, com o surgimento e evolução da informática, os documentos, bem como suas informações, foram digitalizados, ou seja, transformados em bits que através de uma cadeia de caracteres esboçam informações, só que com um poder de abrangência muito maior através da Internet do que outras mídias offline. Como afirma Santaella (2007, p.130) "em cada perído histórico, a cultura fica sob domínio da técnica ou tecnologia de comunicação mais recente", vejam, por exemplo, o poder de crescimento dessa "nova mídia", a Internet, em relação às demais:

tempo de propagação das tecnologias de informação e comunicação
 Imagem 03: Tempo de propagação das tecnologias da informação e da comunicação.

A Internet alcançou em cinco anos o mesmo número de usuários que o rádio levou 38 anos para atingir. Isso se deve a fatores tecnológicos disponíveis, bem como à própria necessidade do poder de abrangência de informações, flexibilidade administrativa, dentre outros fatores (CAVALCANTI; NEPOMUCENO, 2007).

A tecnologia computacional, através de recursos como copiar e colar, replicação em cds, disquetes, entre outros, possibilitou uma maior portabilidade de dados e a convergência disso com o poder de distribuição em rede fez com que o grande número de informações necessitassem de meios eficientes para sua recuperação. Surgiram então os mecanismos de busca.

Mecanismos de busca: automatizando o processo de RI

A missão dos mecanismos de busca, como o Google, Bing, Yahoo!, entre outros, é organizar e entregar informações da web de forma rápida e acessível aos usuários. Pense como seria se ainda fosse necessário despender tempo para procurar determinada informação sobre uma "planta" manualmente, ou seja, partindo-se através de um site e procurando através de seus links externos, passando por inúmeros sites relacionados ou não ao respectivo assunto, até encontrar um site que fosse relevante para a pesquisa. Os mecanismos de busca vieram para automatizar esse processo.

Os primeiros mecanismos de busca como "Archie", "Verônica", entre outros menos conhecidos, possuíam bancos com índices de documentos e colaboravam para a recuperação de informações.

Depois desses, vieram os mecanismos de busca que classificavam sites através de categorização de tópicos como o Yahoo!, por exemplo, e mais tarde, as ferramentas baseadas em spiders que apareceram para maximizar e dinamizar ainda mais o processo de recuperação de informação.

Nos dias de hoje, os mecanismos de busca evoluem no sentido de entregar resultados rapidamente para os mais diferentes dispositivos, como os móveis, e ainda oferecem informações através de suas listas, que incluem imagens, vídeos, mapas, entre outras, que agregam de forma eficiente para o processo de encontrabilidade.

resultados por texto e imagem nos mecanismos de busca
Imagem 04: Resultados em forma de texto e imagens. Percebam também outras possibilidades de resultados no menu esquerdo.

Nem só em mecanismos de busca são realizadas pesquisas. Nas interfaces de busca, também chamadas de busca interna, em websites também.

Interfaces de busca dentro de websites

Um website é formado por uma coleção de documentos que normalmente incluem imagens, textos, vídeos e sons. Esse é um dos motivos pelo qual os mecanismos de busca evoluem de modo a não entregar somente resultados de texto.

Dentro dos websites também se torna necessário encontrar informações em sua coleção de documentos. Imagine, por exemplo, ao acessar um e-commerce. Ao procurar por algum produto, o usuário tem duas alternativas: pesquisar a informação através de suas categorias ou realizar uma pesquisa através da interface de busca do site. Trata-se aí da busca interna do site.

Podemos fazer uma analogia ao pensar em um supermercado. Ao procurar por um determinado produto, há duas alternativas: a primeira, fazer uma pergunta sobre onde pode ser localizado o produto a um funcionário; a segunda, através das placas indicativas de seções, localizando a seção pertinente e procurando pelo produto nas prateleiras.

Voltando ao contexto da web, esse mesmo comportamento ocorre também na busca por informações que apoiam diversos outros processos, como, por exemplo, a busca de informações em sites de redes sociais. O usuário pode intercalar ferramentas para recuperar informações de diversas fontes antes de determinar se vai comprar um produto de uma determinada marca. Além de buscar pelo produto em um mecanismo de busca e encontrá-lo com preço acessível em uma loja virtual, o usuário pode acessar o Orkut para saber o que andam falando do produto, da marca ou mesmo da respectiva loja virtual.

Referências

"Uma história social do conhecimento: de Gutenberg a Diderot". Peter Burke, 2003. Editora Zahar.

"Uma história social da mídia: de Gutenberg à Internet". Peter Burke e Asa Briggs, 2006. Editora Zahar.

"Web Design for ROI: Turning Browsers into Buyers & Prospects into Leads". Lance Loveday e Sandra Niehaus, 2008. New Riders.

"Linguagens líquidas na era da mobilidade". Lucia Santaela, 2007. Paulus.

"O conhecimento em rede: como implantar projetos de inteligência coletiva". Marcos Cavalcanti e Carlos Nepomuceno, 2007. Editora Campus.

Comentários

Unknown disse…
Erick, muy interesante la dimensión histórica del manejo de la información, esperaré el próximo post sobre la importancia de la Inteligencia Artificial en la recuperación de información, hacer algo así es mi principal dedicación por estos días! ah, perdón por el castellano :-)
Erick Formaggio disse…
Olá Jorge,
Obrigado por aparecer e comentar. Penso o mesmo sobre a importância na discussão deste tema. Muitos ignoram o fato de que a recuperação de informação existia muito antes de qualquer mecanismo de busca. Entender a dimensão histórica da RI é a base fundamental para entender o seu futuro.

Um abraço!
Erick

Postagens mais visitadas deste blog

Inteligência Coletiva

Ferramentas de Gerenciamento e Produtividade

Pesquisa: Você clica nos Links Patrocinados dos resultados de busca?