Top.Mail.Ru
\

Соседство слов в SEO: одна идея под пятью разными именами

Ципф, косинусная близость, PMI, SWBM25, скользящее окно — звучит как пять разных метрик. На деле это одна и та же идея, упакованная разными инструментами по-разному: слова, которые стоят рядом с ключом в документах топа, несут больше сигнала релевантности, чем просто частотность самого ключа. Разница только в том, как каждый сервис режет документ на зоны и насколько детально показывает результат.

SWBM25

Как это эволюционировало

Ципф был нулевой точкой. Старые анализаторы выдавали число — «семантическая близость = 0.73» — и всё. Какие именно слова стоят рядом с ключом у конкурентов, оставалось загадкой: параметр был, применить его на практике было нельзя.

Косинусная близость решила эту проблему визуализации. Вместо абстрактного балла — конкретный список: рядом с «хирургическим столом» в топах стоят «нержавеющая сталь», «дезинфекция», «нагрузка 250 кг». Эти слова можно сразу брать и вставлять в текст.

PMI — математически близкий родственник косинусной, просто переупакованный под другим названием. Считает вероятность совместного появления двух слов против их случайного появления — результат тот же список слов-соседей. Метрику придумали ещё в 1990 году (Church & Hanks), так что «внедрение» PMI в SEO-инструменты — это, по сути, находка с опозданием в три десятилетия.

SWBM25 в текстовом анализаторе делает то же самое, но с акцентом на зону: вместо всего документа смотрит только на первые 50–200 слов — шапку страницы. Логика простая: для поисковых систем начало документа — это зона с повышенным весом для ранжирования по фрагментам, и сильнейшие тезисы конкуренты держат именно там.

Скользящее окно (механика, которую использует один из анализаторов) идёт ещё дальше в детализацию. Это окно фиксированного размера — обычно 6 слов, — которое проходит по тексту с шагом в одно слово и собирает всё, что попало в радиус вокруг ключа. Слова сортируются по произведению веса IDF и частоты встречаемости. Главный эффект: слово может физически быть на странице, но если оно стоит слишком далеко от ключа, для алгоритма оно как будто отсутствует — не формирует нужный микро-контекст.

В чём разница между подходами

МетодЗона анализаЧто видноМожно сразу вставить в текст
Ципфвесь корпусчисло/баллнет
Косинусная близостьвесь документконкретные словада
PMIвесь документконкретные словада
SWBM25шапка (50–200 слов)n-граммы с весомда
Скользящее окнорадиус ~6 слов вокруг ключаслова-соседи с весом IDF×частотада

Чем уже зона анализа — тем точнее список, но тем меньше общая картина по странице. Скользящее окно даёт самый точечный результат: список слов именно для конкретного пассажа с ключевым вхождением, а не общий срез по документу.

Ципф, PMI, SWBM25, косинусная

Почему одна идея переизобретается снова и снова

Потому что идея рабочая. Слова, которые co-occur с ключом, реально тянут релевантность — это подтверждается и через BM25, и через нейросетевые эмбеддинги (word2vec, GloVe, BERT строятся на тех же co-occurrence матрицах, просто обученных на гигантских корпусах, а не на выдаче по одному запросу). Каждый инструмент приходит к этой идее своим путём — через статистику, лингвистику или патенты поисковых систем — и называет её по-своему. Это не плагиат, это конвергенция к одному и тому же правильному ответу.

Как применять на практике

  1. Собрать слова, стоящие рядом с ключом у конкурентов из топ-10–20 (по выбранному методу — неважно какому).
  2. Отсортировать по частоте и весу (IDF, BM25, PMI — без разницы).
  3. Тематические термины подтянуть ближе к ключевому вхождению, общеупотребительные — вынести в отдельные предложения.
  4. Отдельно проверить плотность сильных тезисов в первых 50–100 словах страницы — для поисковых систем это зона с максимальным сигналом.

Если под рукой только параметр без слов (как старый Ципф) — толку от него немного. Если есть косинусная близость, PMI, SWBM25 или скользящее окно — инструменты эквивалентны по результату, разница только в удобстве и точности извлечения.


Автор: Владислав Островерх — SEO-специалист с 2008 года. Подробный разбор 22 текстовых анализаторов с разбивкой по задачам и поисковикам — на профильном ресурсе.

\n\n\n\n\n\n
\n\n