LSI – оптимизация без ключевых слов

Что скрывается под аббревиатурой LSI?

Если объяснять простым языком, LSI – это способ определения тематики текста и группировки текстов по тематичности. Метод основан на анализе взаимосвязей между коллекцией документов и терминами (словами), которые в них содержатся.

Каковы основные принципы LSI?

Текст представляется в виде «мешка слов»: то есть, порядок слов в и их близость друг к другу значения не имеют.
Документ относится к той или иной тематике/группе на основании терминов (слов), которые в нем содержатся и частоты этих терминов (количества раз, которые они встречаются в документе).


Каждое слово имеет единственное значение. Это не совсем корректное допущение, но оно необходимо для построения модели.

Что делает LSI?

Анализирует большой объём документов и на основе встречающихся в них слов относит документ к той или иной тематике.

Как технически работает LSI?

Фактически это сингулярное разложение терм-документной матрицы, которое позволяет выловить ключевые составляющие этой матрицы и проигнорировать шумы.

 

Источник