SEM Brasil - Home

Primeiro portal sobre Search Engine Marketing do Brasil

HOME   |   CADASTRO   |   BLOGS   |   FÓRUM   |   RSS  

HOME > ARTIGOS > LATENT SEMANTIC INDEXING E SUA RELAÇÃO COM O SEO

Em Links Patrocinados

Latent Semantic Indexing e sua relação com o SEO

24/04/2007 - 09:43

Por Diego A. Hinojosa Foronda

Imprimir esta páginaApontar erroAumentar/Diminuir o tamanho da fonte


Mostra-se neste artigo uma visão geral do que é, as vantagens, as limitações da Indexação Semântica Latente (mais conhecida como LSI) e sua relação com o SEO.

Conhecendo o LSI

Em abril de 2003 o Google compra a Applied Semantics[1] empresa que oferecia entre seus produtos publicidade em internet só que com o diferencial de usar processamento semântico no texto. É a partir desta aquisição que começa a se falar que o Google incorpora o LSI (Latent Semantic Indexing) em seu sistema. A notícia desta aquisição e, sobretudo, a incorporação do LSI na ferramenta de busca é muito comentada por todas as pessoas que trabalham com SEO (Search Engine Optimization) devido às novas possibilidades que traz esta técnica, virando desta forma o LSI um termo popular no mundo SEM.

A Origem do Método

O LSI foi um trabalho de investigação realizado por M.W. Berry, S.T. Dumais, e A.T. Shippy [2], neste trabalho é mostrado um estudo detalhado sobre esta técnica a sua aplicabilidade, entre as áreas de aplicação encontra-se cross-language, clustering e Recuperação de Informação, áreas ligadas diretamente com as ferramentas de busca.

A partir desse trabalho foram realizados vários estudos em torno do LSI, tentando explorar as vantagens que oferece esta técnica.

O Porque do Método

Este método oferece uma análise semântica intrínseca dos termos em todos os documentos indexados, ou seja, este método trabalha com a sinonímia e polissemia. Por exemplo, para a consulta "venda de carros" feita a uma ferramenta de busca que usa LSI o sistema retornará documentos que contenham as frases "venda de carros" e "venda de automóvel" já que carro e automóvel são sinônimos. Da mesma forma, em uma consulta por "banco de dados", o resultado da consulta serão somente documentos que contenham uma relação de "banco de dados" deixando por fora documentos que se referem à banco como entidade financeira e banco como objeto de descanso.

O Método LSI

Poder-se-ia dizer que é o LSI é uma evolução do modelo vetorial, já que trabalha com vários vetores coluna, criando desta forma uma matriz, que nas linhas estão representados os termos indexados de cada documento e nas colunas o documento, desta forma é criada a relação à matriz termo-documento. Explicando melhor esta relação, seja ti a linha e dj a coluna da matriz, e seja o elemento da matriz Oij que representaria o número de vezes que o termo i aparece no documento j.

Após de ser criada esta matriz termo-documento, é aplicado o SVD (Simple Value Decomposition), esta decomposição divide a matriz termo-documento em três matrizes: a matriz U que contém os termos, a matriz S que contém os valores mais representativos da matriz termo-documento (os valores singulares da matriz) e a matriz V que contém os documentos. Uma vez criadas estas três matrizes é escolhido um tamanho (nível k) para trabalhar com as três matrizes. Escolhido este valor, são criadas três matrizes (que serão chamadas U', S' e V') de nível k, a estas três novas matrizes é multiplicado o vetor Q, que representa uma consulta. O resultado desta multiplicação será um vetor cujo conteúdo é uma lista dos documentos mais relevantes para a consulta fornecida.

Como funciona o LSI

Uma vez indexados os termos de cada documento (p.e. uma página web) e criada a relação termo-documento é aplicado o SVD, o resultado desta decomposição vão ser três matrizes "otimizadas". Foram chamadas de otimizadas porque nestas três matrizes vão ser eliminados dados que não contribuem na matriz termo-documento, uma vez escolhido o nível das matrizes U', S' e V' as matrizes estão prontas para receber as consultas fornecidas ao sistema.

O resultado da consulta feita ao sistema será uma lista ordenada por relevância dos documentos que são mais relevantes para a consulta fornecida.

Desvantagens do LSI

O LSI principalmente apresenta uma limitação técnica e uma desvantagem. A limitação técnica é que se alguma empresa ou alguém quer excursionar em trabalhar com o LSI (desenvolver um produto, aplicar dentro do site, etc.) tem que ter um bom conhecimento em álgebra linear aplicada. A desvantagem é que o tempo de processamento vai depender do número de páginas e termos indexados, aplicar para um web site fica viável, mas incorporar dentro de uma ferramenta de busca implica investir, além do conhecimento técnico, em hardware já que o processamento da matriz é muito demorado.

O Google é a única ferramenta de busca (ou pelo menos que foi divulgado) que integrou em seus resultados o uso do LSI possibilitando desta forma a busca por sinônimos, ou seja, se um site for modificado de acordo com o LSI, este site perderia o posicionamento nas outras ferramentas de busca. Esta possibilidade de buscar por sinônimos no Google é possível só quando é usado um comando que indica ao Google que mostre os resultados por sinônimos, este é um problema para os SEOs, já que o Google ao não integrar esta forma de busca de forma natural dificulta que o usuário encontre os resultados com e sem sinônimos para a consulta realizada, já que muitos usuários não têm conhecimento da existência destes comandos e não têm costume de usá-los.

LSI e a Importância para o SEO

O uso do LSI permite ao profissional de SEO escrever conteúdo que possa ser encontrado por uma palavra-chave ou por um sinônimo dessa palavra chave. Esta possibilidade claramente é uma ajuda para o SEO na hora de escrever conteúdo para o site, e para o usuário oferece uma leitura mais agradável (já que a mesma palavra-chave ou frase-chave não vai aparecer repetidamente na mesma página) e o spam diminuiria consideravelmente.

Aplicar esta técnica dentro de um web site ou em links patrocinados pode ser muito vantajoso, fazer uma análise de densidade das palavras-chave por grupos de palavras dentro do site ou expandir as combinações de palavras-chave dentro dos grupos de anúncios, trás indiscutivelmente vantagens. Prova disto é a empresa indiana SEM[DDD] Mosaic [3] que desenvolveu uma ferramenta que usa LSI para web sites e produtos de link patrocinado.


Referências

[1] http://www.google.com/press/pressrel/applied.html

[2] http://www.cs.utk.edu/~library/TechReports/1995/ut-cs-95-271.ps.Z

[3] http://www.sem.mosaic-service.com/

CONTRIBUA COM A SUA AVALIAÇÃO

Clique na estrela correspondente ao seu voto:   VotarVotarVotarVotarVotar (1 votos)


Comentários

0 pessoa(s) comentaram até agora

Não existe nenhum comentário postado.

Avisos

Os itens com asterisco (*) são campos de preenchimento obrigatório.
Todos devem se identificar através do e-mail válido.
Os e-mails dos usuários não serão divulgados no site.
Os comentários estão sujeitos à moderação.

Enviar Comentário

Nome *

E-mail *

Comentário: *

Código de segurança: *

Calendário

« Setembro 2008 »
S T Q Q S S D
1234567
891011121314
15161718192021
22 23 24 25 262728
2930 1 2 3 4 5
Evento pago  Eventos pagos
Evento gratuito  Eventos gratuitos
Eventos pagos e gratuitos  Eventos pagos e gratuitos

Painel do Usuário

Usuario: 
Senha: 
Esqueceu sua senha?
Cadastre-se

Colunistas

Luciano Picerni Neto - Colunista do SEMBrasil

10 dicas para adquirir backlinks para o seu site

Gustavo Loureiro - Colunista do SEMBrasil

O Google aprende a indexar Flash...e daí?

David Berkowitz - Colunista do SEMBrasil

Sonhando com um Super Modelo

Erick Beltrami Formaggio - Colunista do SEMBrasil

Medindo os esforços de SEO

barra

Patrocínio


SEM