| Как поисковая машина может анализировать ссылочную структуру сайта |
| 23:10:2009 г. | |
|
Как хорошо поисковые машины понимают
ссылочную структуру сайта? Есть ли у них они способы организовывать и
классифицировать индивидуальные ссылки и блоки ссылок, которые
встречаются на страницах?
Относятся ли они к ссылкам и блокам ссылок на разных страницах сайта иначе, чем к ссылкам и блокам на одной странице? Если они обнаружат более одной группы ссылок на странице с повторяющимися ссылками (внизу и вверху страницы), как они к ним отнесутся? Подобные темы затрагиваются в патенте Microsoft, который мы сегодня рассмотрим. Сегментация и блоки ссылок В 2002 году в работе «SmartView: Enhanced Document Viewer for Mobile Devices» пара исследователей из Microsoft обсуждали способы анализа и разбиения страниц на более мелкие логические блоки для просмотра на небольших устройствах вроде мобильных телефонов. Эти более мелкие блоки могли отображаться по выбору пользователя отдельно от остальной страницы. Один из авторов статьи является соавтором и патнета, о котором пойдет речь, а также автором работы на тем сегментации страниц, упомянутой в патенте. Еще одним упомянутым в патнете процессом сегментации является VIPS (алгоритм сегментации страниц, основанный на внешнем виде страницы). Работа, описывающая данный процесс, была опубликована в 2003 году и рассматривает способы рассмотрения HTML кода страницы, анализа пустого места, горизонтальных полос и прочих элементов на странице, которые могут сигнализировать о наличии различных логических секций. Еще одна статья от Microsoft, которая не упоминается в патенте, но, тем не менее, является релевантной, это «Block-Level Link Analysis» (Анализ ссылок на уровне блоков). Кроме всего прочего, именно в этой статье появляется понятие «Block Level PageRank» (PageRank уровня блоков)Block Level PageRank (BLPR) по духу похож на оригинальный алгоритм PageRank. Ключевым отличием между ними служит то, что традиционный алгоритм PageRank работает со структурой на уровне страницы, а BLPR — со структурой на уровне блоков. Единственное, что в статьях Microsoft остается не проанализированным на достаточном уровне — возможные взаимоотношения ссылок. Классификация ссылок При классификации ссылок и блоков ссылок, поисковая машина может начать с анализа внешнего вида страницы для определения кандидатов в блоки ссылок и их размещения на страницах, а также их связей. Этот анализ позволяет создать то, что патент называет Графом Ссылочной Структуры (LSG). Вот три основных цели создания LSG: Локальность – Для определения структуры глобальных ссылок на сайте и структуры локальных ссылок. Полнота – Для понимания всей полноты ссылочной структуры сайта, включая навигационную и логическую структуры, которая используется для организации контента на сайте. Масштабирование – Этот алгоритм может применяться как для больших, так и для совсем скромных сайтов. Он учитывает в числе прочего и блоки ссылок, которые появляются более чем на одной странице, и сопоставляет их. Некоторые блоки ссылок могут появляться более чем один раз на одной странице в различных сегментах с небольшими вариациями. В таком случае они могут быть сведены в одно целое. Например, идентичные меню навигации могут располагаться вверху и внизу страницы. После того, как идентичные блоки ссылок были сведены, оставшиеся блоки, считающиеся «уникальными», подвергаются классификации. Классификация основана на функции блока ссылок и по ее результатам блок может быть отнесен к одному из трех типов: S-точки – Организационные и навигационные блоки ссылок. Обычно повторяющиеся на страницах с одинаковым внешним видом и отображающие организацию сайта. Чаще всего это списки ссылок без каких-либо элементов кроме текста. Это — структурные блоки ссылок или s-точки. C-точки – Блоки контентных ссылок, сгруппированные по какой-либо связи с контентом, такой как отношение к одной теме или подтеме. Обычно эти блоки указывают на информационные ресурсы и не повторяются более чем на одной странице. I-точки – Это изолированные ссылки, которые не являются частью группы и могут быть слабо связаны с другими ссылками посредством столь общих критериев, как появление в одном абзаце текста. Каждая ссылка, встреченная на странице и не отнесенная в классификации к s-точкам или c-точкам относится к i-точкам. Каждая ссылка на странице может рассматриваться как отдельная i-точка или же все индивидуальные ссылки страницы могут быть сгруппированы в одной i-точке. Если вы рассмотрите множество страниц на различных сайтах, то увидите, что подобная классификация не столь сложна, как может показаться. Источник: Как поисковая машина может анализировать ссылочную структуру сайта. Часть 1. |
| « Получаем обратные ссылки из неожиданных источников | Делаем SEO для мобильного поиска » |
|---|
