Соседство слов в SEO: одна идея под пятью разными именами
Ципф, косинусная близость, PMI, SWBM25, скользящее окно — звучит как пять разных метрик. На деле это одна и та же идея, упакованная разными инструментами по-разному: слова, которые стоят рядом с ключом в документах топа, несут больше сигнала релевантности, чем просто частотность самого ключа. Разница только в том, как каждый сервис режет документ на зоны и насколько детально показывает результат.

Как это эволюционировало
Ципф был нулевой точкой. Старые анализаторы выдавали число — «семантическая близость = 0.73» — и всё. Какие именно слова стоят рядом с ключом у конкурентов, оставалось загадкой: параметр был, применить его на практике было нельзя.
Косинусная близость решила эту проблему визуализации. Вместо абстрактного балла — конкретный список: рядом с «хирургическим столом» в топах стоят «нержавеющая сталь», «дезинфекция», «нагрузка 250 кг». Эти слова можно сразу брать и вставлять в текст.
PMI — математически близкий родственник косинусной, просто переупакованный под другим названием. Считает вероятность совместного появления двух слов против их случайного появления — результат тот же список слов-соседей. Метрику придумали ещё в 1990 году (Church & Hanks), так что «внедрение» PMI в SEO-инструменты — это, по сути, находка с опозданием в три десятилетия.
SWBM25 в текстовом анализаторе делает то же самое, но с акцентом на зону: вместо всего документа смотрит только на первые 50–200 слов — шапку страницы. Логика простая: для поисковых систем начало документа — это зона с повышенным весом для ранжирования по фрагментам, и сильнейшие тезисы конкуренты держат именно там.
Скользящее окно (механика, которую использует один из анализаторов) идёт ещё дальше в детализацию. Это окно фиксированного размера — обычно 6 слов, — которое проходит по тексту с шагом в одно слово и собирает всё, что попало в радиус вокруг ключа. Слова сортируются по произведению веса IDF и частоты встречаемости. Главный эффект: слово может физически быть на странице, но если оно стоит слишком далеко от ключа, для алгоритма оно как будто отсутствует — не формирует нужный микро-контекст.
В чём разница между подходами
| Метод | Зона анализа | Что видно | Можно сразу вставить в текст |
|---|---|---|---|
| Ципф | весь корпус | число/балл | нет |
| Косинусная близость | весь документ | конкретные слова | да |
| PMI | весь документ | конкретные слова | да |
| SWBM25 | шапка (50–200 слов) | n-граммы с весом | да |
| Скользящее окно | радиус ~6 слов вокруг ключа | слова-соседи с весом IDF×частота | да |
Чем уже зона анализа — тем точнее список, но тем меньше общая картина по странице. Скользящее окно даёт самый точечный результат: список слов именно для конкретного пассажа с ключевым вхождением, а не общий срез по документу.

Почему одна идея переизобретается снова и снова
Потому что идея рабочая. Слова, которые co-occur с ключом, реально тянут релевантность — это подтверждается и через BM25, и через нейросетевые эмбеддинги (word2vec, GloVe, BERT строятся на тех же co-occurrence матрицах, просто обученных на гигантских корпусах, а не на выдаче по одному запросу). Каждый инструмент приходит к этой идее своим путём — через статистику, лингвистику или патенты поисковых систем — и называет её по-своему. Это не плагиат, это конвергенция к одному и тому же правильному ответу.
Как применять на практике
- Собрать слова, стоящие рядом с ключом у конкурентов из топ-10–20 (по выбранному методу — неважно какому).
- Отсортировать по частоте и весу (IDF, BM25, PMI — без разницы).
- Тематические термины подтянуть ближе к ключевому вхождению, общеупотребительные — вынести в отдельные предложения.
- Отдельно проверить плотность сильных тезисов в первых 50–100 словах страницы — для поисковых систем это зона с максимальным сигналом.
Если под рукой только параметр без слов (как старый Ципф) — толку от него немного. Если есть косинусная близость, PMI, SWBM25 или скользящее окно — инструменты эквивалентны по результату, разница только в удобстве и точности извлечения.
Автор: Владислав Островерх — SEO-специалист с 2008 года. Подробный разбор 22 текстовых анализаторов с разбивкой по задачам и поисковикам — на профильном ресурсе.


