quarta-feira, novembro 29, 2006

existe uma web portuguesa?


Ando às voltas com esta coisa sem saber muito bem o que fazer com ela. No público de hoje vem uma notícia de um motor de busca alternativo (tumba – "temos um motor de busca alternativo") que organiza a “web portuguesa” e a indexa em tumba.tompa.pt. A notícia não é muito actual e até supreendeu um dos investigadores do XLDB. É que este motor de busca está em funcionamento desde 2001, e o arquivo desde o ano passado. A haver alguma notícia, ela é o fim da tumba.


A ideia não é totalmente original. Já poucos se lembram, mas o sapo.pt começou como um projecto da universidade de aveiro. Mas a tumba queria ser diferente: o grupo de investigadores pretendia, em 2001, cria um motor de busca com o propósito de indexar a “web portuguesa”. Já apontaram algumas vantagens deste serviço – neste exemplo, a página do cavaco silva ficará para sempre disponível online apesar de ter saído da net (esqueceram-se de pagar a conta, imagino). Mas é o princípio que me parece um absurdo.



Por partes: o motor de busca é ineficaz, lento e obsoleto. Os servidores estão no limite, como nos conta a reportagem, e a capacidade de armazenamento esgotou. E os métodos de pesquisa completamente ultrapassados (experimentem usá-lo). A ironia é esta: se quiserem salvar a tumba terão que inserir uma busca do google dentro do próprio arquivo, como fazem os grandes servidores. Sobra então o arquivo proper (a tumba da tomba, remember?). E aqui é que se calhar me vão cair em cima: não consigo perceber o porquê do arquivo e o apelo à futura herança patrimonial da textualização cibernáutica feita em Portugal por Portugueses



Este documento de 2001 (IsItPortuguese?.pdf) produzido pela equipa de investigação do XLDB da Fac Ciências expõe o problema (como indexar documentos numa língua específica) e propõe uma solução (uma função em algoritmo que apresente os resultados de acordo com o léxico procurado e um princípio de frequência na totalidade dos documentos, ou assim me pareceu). Mas em 2001 não havia já um google.pt? Para que serve então? É que, assim, a tomba não parece ser mais que um arquivo de um arquivo, uma fotocópia do google, e dos restos que os criadores de conteúdo não quiseram deixar online (como o cavacosilva.pt, como é explicado). Guarda os noticiários da RTP? Guarda os milhares de blogs feitos por Portugueses em Portugal não alojados em weblog.com.pt? Não, nada. Mas pelo menos fica a certeza do que se guarda é português: só se guardam moradas em .pt ou que tenham alguma forma de ligação a .pt (que não um link). Um dos investigadores, desolado, queixa-se de que acabam por guardar alguns sites brasileiros.



Por isto não me junto ao coro de entusiastas. Seria preciso organizar conteúdo para salvar o projecto, o que o google não fará em exclusivo para a comunidade tuga continental. Por tema, por ano, por relevância, whatever. E perceber de uma vez por todas que criar um arquivo não é guardar as coisas, é arrumá-las. As it is, não funciona e é um arquivo-morto. Até porque o remédio que propõem é muito português: a ‘relevância do projecto’ faz com que tenha que ser o Estado, ou algumas das suas instituições, a financiar e acolher o mui útil projecto da academia portuguesa (o que requereria criar armazéns de servidores, sistemas de refrigeração, muita tralha – guardar a net exige muito espaço e $). Se fosse lucrativo, queria ver a equipa a abdicar do código. Até provarem que o projecto vale a pena, acho a ideia um disparate. Criaram a tumba, por mim podem fechá-la.

Sem comentários: