Conteúdos
SEMBrasil
Contato
Pesquisas
Newsletter

HOME > ARTIGOS > LATENT SEMANTIC INDEXING E SUA RELAÇÃO COM O SEO
Latent Semantic Indexing e sua relação com o SEO
24/04/2007 - 09:43
Por Diego A. Hinojosa Foronda
Conhecendo o LSI
Em abril de 2003 o Google compra a Applied Semantics[1] empresa que oferecia entre seus produtos publicidade em internet só que com o diferencial de usar processamento semântico no texto. É a partir desta aquisição que começa a se falar que o Google incorpora o LSI (Latent Semantic Indexing) em seu sistema. A notícia desta aquisição e, sobretudo, a incorporação do LSI na ferramenta de busca é muito comentada por todas as pessoas que trabalham com SEO (Search Engine Optimization) devido às novas possibilidades que traz esta técnica, virando desta forma o LSI um termo popular no mundo SEM.
A Origem do Método
O LSI foi um trabalho de investigação realizado por M.W. Berry, S.T. Dumais, e A.T. Shippy [2], neste trabalho é mostrado um estudo detalhado sobre esta técnica a sua aplicabilidade, entre as áreas de aplicação encontra-se cross-language, clustering e Recuperação de Informação, áreas ligadas diretamente com as ferramentas de busca.
A partir desse trabalho foram realizados vários estudos em torno do LSI, tentando explorar as vantagens que oferece esta técnica.
O Porque do Método
Este método oferece uma análise semântica intrínseca dos termos em todos os documentos indexados, ou seja, este método trabalha com a sinonímia e polissemia. Por exemplo, para a consulta "venda de carros" feita a uma ferramenta de busca que usa LSI o sistema retornará documentos que contenham as frases "venda de carros" e "venda de automóvel" já que carro e automóvel são sinônimos. Da mesma forma, em uma consulta por "banco de dados", o resultado da consulta serão somente documentos que contenham uma relação de "banco de dados" deixando por fora documentos que se referem à banco como entidade financeira e banco como objeto de descanso.
O Método LSI
Poder-se-ia dizer que é o LSI é uma evolução do modelo vetorial, já que trabalha com vários vetores coluna, criando desta forma uma matriz, que nas linhas estão representados os termos indexados de cada documento e nas colunas o documento, desta forma é criada a relação à matriz termo-documento. Explicando melhor esta relação, seja ti a linha e dj a coluna da matriz, e seja o elemento da matriz Oij que representaria o número de vezes que o termo i aparece no documento j.
Após de ser criada esta matriz termo-documento, é aplicado o SVD (Simple Value Decomposition), esta decomposição divide a matriz termo-documento em três matrizes: a matriz U que contém os termos, a matriz S que contém os valores mais representativos da matriz termo-documento (os valores singulares da matriz) e a matriz V que contém os documentos. Uma vez criadas estas três matrizes é escolhido um tamanho (nível k) para trabalhar com as três matrizes. Escolhido este valor, são criadas três matrizes (que serão chamadas U', S' e V') de nível k, a estas três novas matrizes é multiplicado o vetor Q, que representa uma consulta. O resultado desta multiplicação será um vetor cujo conteúdo é uma lista dos documentos mais relevantes para a consulta fornecida.
Como funciona o LSI
Uma vez indexados os termos de cada documento (p.e. uma página web) e criada a relação termo-documento é aplicado o SVD, o resultado desta decomposição vão ser três matrizes "otimizadas". Foram chamadas de otimizadas porque nestas três matrizes vão ser eliminados dados que não contribuem na matriz termo-documento, uma vez escolhido o nível das matrizes U', S' e V' as matrizes estão prontas para receber as consultas fornecidas ao sistema.
O resultado da consulta feita ao sistema será uma lista ordenada por relevância dos documentos que são mais relevantes para a consulta fornecida.
Desvantagens do LSI
O LSI principalmente apresenta uma limitação técnica e uma desvantagem. A limitação técnica é que se alguma empresa ou alguém quer excursionar em trabalhar com o LSI (desenvolver um produto, aplicar dentro do site, etc.) tem que ter um bom conhecimento em álgebra linear aplicada. A desvantagem é que o tempo de processamento vai depender do número de páginas e termos indexados, aplicar para um web site fica viável, mas incorporar dentro de uma ferramenta de busca implica investir, além do conhecimento técnico, em hardware já que o processamento da matriz é muito demorado.
O Google é a única ferramenta de busca (ou pelo menos que foi divulgado) que integrou em seus resultados o uso do LSI possibilitando desta forma a busca por sinônimos, ou seja, se um site for modificado de acordo com o LSI, este site perderia o posicionamento nas outras ferramentas de busca. Esta possibilidade de buscar por sinônimos no Google é possível só quando é usado um comando que indica ao Google que mostre os resultados por sinônimos, este é um problema para os SEOs, já que o Google ao não integrar esta forma de busca de forma natural dificulta que o usuário encontre os resultados com e sem sinônimos para a consulta realizada, já que muitos usuários não têm conhecimento da existência destes comandos e não têm costume de usá-los.
LSI e a Importância para o SEO
O uso do LSI permite ao profissional de SEO escrever conteúdo que possa ser encontrado por uma palavra-chave ou por um sinônimo dessa palavra chave. Esta possibilidade claramente é uma ajuda para o SEO na hora de escrever conteúdo para o site, e para o usuário oferece uma leitura mais agradável (já que a mesma palavra-chave ou frase-chave não vai aparecer repetidamente na mesma página) e o spam diminuiria consideravelmente.
Aplicar esta técnica dentro de um web site ou em links patrocinados pode ser muito vantajoso, fazer uma análise de densidade das palavras-chave por grupos de palavras dentro do site ou expandir as combinações de palavras-chave dentro dos grupos de anúncios, trás indiscutivelmente vantagens. Prova disto é a empresa indiana SEM[DDD] Mosaic [3] que desenvolveu uma ferramenta que usa LSI para web sites e produtos de link patrocinado.
Referências
[1] http://www.google.com/press/pressrel/applied.html
[2] http://www.cs.utk.edu/~library/TechReports/1995/ut-cs-95-271.ps.Z
Clique na estrela correspondente ao seu voto:




(1 votos)
Comentários
0 pessoa(s) comentaram até agora
Não existe nenhum comentário postado.Avisos
Os itens com asterisco (*) são campos de preenchimento obrigatório.
Todos devem se identificar através do e-mail válido.
Os e-mails dos usuários não serão divulgados no site.
Os comentários estão sujeitos à moderação.
Enviar Comentário
Calendário
|
|||||||||||||||||||||||||||||||||||||||||||||||||
Eventos pagos
Eventos gratuitos
Eventos pagos e gratuitos
Painel do Usuário
Colunistas
Boas práticas de Links Patrocinados
Tagnologia: universo que une o onlie e o offline
Como a arquitetura de informação pode influenciar em SEO?
Patrocínio