Раскрутка

Ответы А. Садовского на Ваши вопросы

Здравствуйте, уважаемые форумчане!
В точно назначенный срок я получил ответы от А. Садовского на Ваши вопросы, заданные ранее в соответствующей теме. Ваши вопросы были сгруппированы, и были отобраны наиболее интересные и актуальные (на практике было в конечный список вошло более 80% вопросов).
Прежде всего хотел бы выразить благодарность Александру Садовскому за то, что согласился на эту виртуальную пресс-конференцию и за то, что ответил на, немного немало, на 95 вопросов!
Так же хотел бы выразить благодарность Сергею Людкевичу (ник wolf) за помощь в отборе вопросов для Александра. И, конечно же, Вам, уважаемые коллеги-оптимизаторы, веб-мастера и простые пользователи сети Интернет за то, что приняли участие в этой акции и задали очень много действительно интересных вопросов!
Ниже приведены ответы А. Садовского на все 95 вопросов. При цитировании, частичной или полной перепечатке содержания данной пресс-конференции гиперссылка на сайт http://www.searchengines.ru обязательна.
С уважением, Вальнин Георгий aka XTR.
=======================================================================================
Александр Садовский благодарит за помощь с ответами Илью Сегаловича, Михаила Ушакова, Ольгу Высоцкую и всех менеджеров и разработчиков поиска Яндекса
=======================================================================================
Алгоритмы поиска, внутренняя структура ПС, технические вопросы
1. Что понимается под сортировкой по релевантности при поиске всех страниц сайта командой url=www.site.ru*”?
Правда ли, что страницы сортируются по вИЦ?
Страницы сортируются не по убыванию ВИЦ, а по другим критериям.
2. Возможно ли реализовать эффективный учет тематичности сайтов как фактора ранжирования при относительно небольших вычислительных затратах?
И если ответ "да", (а я думаю, что да), то есть ли это в каких нибудь планах Яндекса?
По понятным причинам мы стараемся не комментировать факторы, влияющие на ранжирование. Конечно учет темы в ранжировании — это вопрос соотношения полноты, точности и производительности. Для небольшого числа запросов, сайтов, страниц можно достичь высокой точности классификации и хорошей производительности. Для всех запросов это сделать намного сложнее, учитывая, что более половины из них в течение месяца не повторяются.
3. Где и сколько хранится кеш поиска?
а) в каждом метапоиске?
б) они обмениваются между собой?
в) кеш скольких поисков хранится?
г) есть ли минимальный срок, или влияет только загрузка?
Каждый запрос попадает на «свой» кеширующий метапоиск. В случае проблем на этой машине запрос уходит на другой метапоиск. Кеш очищается в моменты обновления базы, а также выборочно чистится в случае заполнения диска.
4. Считает ли Яндекс разумным сделать пессимизацию за внешние факторы, как это сделал Google (пресловутый Google Bowling)?
Мы смотрим на все факторы, в т.ч. и на внешние. При этом пессимизация никогда не производится исключительно на основании внешних факторов.
5. Собирается ли Яндекс вводить гео-таргетинг выдачи? Для пользователей из СПб, давать бонус сайтам с регионом СПб или хостящимся в Питере? Для других городов аналогично.
Сейчас мы работаем над локализацией для крупных географических регионов, дойдем ли до уровня городов и в какие сроки — зависит от прироста качества, которое получим, и успешности решения проблем.
6. Ссылки всегда будут править балом? Есть ли альтернатива в плане определения релевантности?
Намерен ли Яндекс в дальнейшем развивать значимость внутренних факторов, например, контента, по отношению к внешним, подобно Google?
Мы используем все доступные нам способы повысить качество поиска. Конечно же ссылки не единственный и далеко не исчерпывающий источник полезной информации.
7. Будет ли когда-либо отменен знаменитый «найден по ссылке»?
Многие документы не могут быть найдены иначе, чем по ссылке. Иногда это связано с техническими причинами, иногда с отсутствием лексики в тексте страниц. Все современные поисковые системы умеют находить документы по ссылкам, отличаются же они только тем, что некоторые, такие как Яндекс, честно предупреждают пользователя «перед вами текст ссылки», другие же этого не делают. С нашей точки зрения в замалчивании есть некоторое «введение в заблуждение», которого мы стремимся избегать.
8. Не секрет, что сейчас очень остро стоит проблема дублирования контента (причем, не только в рунете). Фактически, делать свой информационный (НЕ маркетинговый-продающий) контент для сети становится практически не выгодно. И это учитывая, что до нас пока еще не в полном объеме докатились технологии всяческого scraping-grabbing, тырящие контент в полностью автоматическом режиме. Будет ли Яндекс пытаться сделать так, чтоб в выдачу попадал именно сайт правообладателя? Возможен ли какой-то механизм регулирования этой проблемы?
Проблема важная и поиск Яндекса при обнаружении дубликатов пытается определить оригинал документа. Существующие алгоритмы, конечно, несовершенны и мы работаем над их улучшением. Что касается юридического регулирования, поисковые системы пока не могут идентифицировать авторство текста. В случае удаления из сети «тыренного» контента (например, в результате действий правообладателя), Яндекс также удалит его из базы по мере обхода роботом. Этот процесс можно ускорить, воспользовавшись формой http://webmaster.yandex.ru/delurl.xml
9. Существует ли число (в процентах) которое определяет качество выдачи? Скажем если в выдаче 10% дорвеев - то она качественная, больше - уже нет.
Если в выдаче 10% дорвеев, она безусловно некачественная. Конечно любое пороговое число — условность, облегчающая понимание. Наши внутренние метрики самые обычные, например, доля релевантных ответов в первой десятке, доля низкокачественных сайтов (дорвеи, спам) в десятке и т.д. Мы анализируем не только показатели, но и их динамику.
10. Как Яндекс относится к огромному количеству сайтов-спутников, созданных только для продвижения клиентских сайтов? Будет ли присваиваться меньший или мизерный вес ссылкам с сайтов, принадлежащих одному физическому лицу или компании, ведущих на один или несколько «продвигаемых» в поиске сайтов? Это к вопросу о плодящихся как грибы в сети сайтах-спутниках (сателлитах), которые зачастую имеют одного владельца и «висят» на одном IP. Или может быть будут какие-то другие методы борьбы?
К сайтам и страницам, созданным исключительно для роботов, а не для пользователей, мы относимся отрицательно. У нас давно работает алгоритм, определяющий группы аффилированных сайтов. В работе находится еще один алгоритм, который позволит выявить многие новые виды сайтов-спутников. Его предварительные результаты нас радуют.
11. Стоит ли в Яндексе задача устранить возможность манипулирования выдачей путем перелинковки сайтов клиентов большинства веб-студий через «морды»?
Яндекс уже не учитывает многие виды «накрутки» ссылок. Что касается платных ссылок на мордах сайтов, с ними не все так просто – ведь некоторые из них достаточно качественные (возможно из-за высокой цены размещения), поэтому алгоритм их фильтрации пока не завершен.
12. Будет ли Яндекс как-то оценивать и учитывать посещаемость сайтов?
Мы не комментируем факторы, влияющие на ранжирование.
13. Планирует ли Яндекс и дальше полагаться на Платонов или все же планируется улучшить алгоритмы поиска настолько, чтобы не пришлось полагаться на ручные баны (пример разумного подхода к банам - Google).
Поиск Яндекса никогда не зависел от ручных запретов за спам. Ручная обработка используется только для оперативного реагирования на жалобы по поводу сайтов, пропущенных нашими модулями «анти-спама». Число обрабатываемых жалоб совершенно незначительно по сравнению с количеством автоматических детектирований спама (меньше на порядок-два), при этом доля ручного потока все время падает. В перспективе мы хотим перейти к полному отказу от ручных запретов, и к работе в режиме, когда пропущенный нами спам отправляется на вход обучаемому автомату.
Что касается Платона, он — сотрудник службы поддержки, и, хоть и эрудит, но не занимается поиском спама.
14. Почему Яндекс не запускает вроде бы легкий в реализации фильтр на ссылочные блоки на главных страницах сайтов?
В шахматах мало объявить шах, удачная партия заканчивается матом. (см. п. 11)
15. Какие ближайшие задачи стоят перед группой разработки Веб-поиска? В каких направлениях сейчас ведутся основные работы? Что было реализовано в последний год, чта планируется реализовать? Расскажите о далеких перспективных планах.
Доклады о тенденциях в разработке поиска часто бывают на конференциях (см., например, http://company.yandex.ru/presentations/ и др.), не хочется повторяться. Если кратко: более глубокий анализ текстов и запросов; изучение динамики факторов; поощрение пользователей делиться знаниями; улучшение представления информации на странице результатов.
16. Не планируется ли урезать поисковый синтаксис, и сокращать кол-во информации, которой Яндекс "помогает" оптимизаторам? Какая судьба ожидает переколдовку запроса, список бэклинков, операторы типа anchor#link=".."[keyword] и т.д.?
Часть этой информации иллюзорна с точки зрения оптимизации (если оператор link показывает обратную ссылку на страницу, это не значит, что ссылка учитывается в ранжировании). Кроме оптимизаторов, подобные операторы полезны исследователям. Поэтому планов закрывать их немедленно у нас нет.
17. К сожалению, не могу спросить "Я" в Вашем лице о перспективных планах. В этом пункте хочу лишь спросить об отношении ПС к собственной же выдаче, например, по запросу "фокусное расстояние" в сравнении с Google. К сожалению, запросов, где выдача "Я" релевантнее Google, все меньше и меньше. А мы, как и многие, действительно (без ёрничества!) любим "Я", и хотим, чтобы он был лучше. Может ли "Яндекс" в ближайшее время сохранить лидерство в области русско-, белорусско- и украинскоязычного поиска? Что делается для этого?
Мы делаем все возможное как на техническом, так и на организационном уровне.
18. Как развивается технология индексации JavaScript-ссылок? Возможно, я упустил что-то, и она есть уже, но хочется развернутых (если можно!) комментариев.
Яндекс пока не индексирует ссылки внутри кода JavaScript.
19. Существует ли бонус (преимущество) для новопроиндексированных страниц с уже ранее проиндексированного сайта перед другими страницами других сайтов, релевантных данному запросу? И на какое время, если да?
Бонуса не существует. В то же время, страницы с новостной и актуальной информацией, индексируемые быстрым роботом, ранжируются по-другому, чем страницы из основного робота.
20. Научится ли Яндекс выводить при поиске форумы с "лесенкой" интересных пользователю сообщений?
Вы имеете в виду, что вместо поиска страниц стоит предоставлять поиск по сообщениям? Поиск Яндекса по блогам и форумам умеет делать это уже два года.
21. Яндекс считает что все поддомены сайта - это его подмножество. Т.е. ищем слово, которое есть на сайте и его поддоменах - они попадают в одну строку. Жмем "Еще сайта", и там видим поддомены этого же сайта. Но это ведь неверно в корне... это могут быть совсем различные сайты...
Какие прогнозы по этой несправедливости?
Результаты поиска характеризуются не только релевантностью, но и разнообразием мнений пользователей. Трудно считать хорошим ответ, по которому находятся десять предложений или статей одного автора. Если домен не является хостингом или географическим доменом, как правило, субдомены представляют одного автора. Поддомены с хостингов в результатах поиска «расклеены», поэтому я не вижу какой-то особой несправедливости.
22. На форуме неоднократно описывался эксперимент по выявлению «непота»: на сайте А устанавливается ссылка с уникальным текстом (абракадаброй), ведущая на сайт Б. Далее, после переиндексации страницы со ссылкой, пытаемся искать абракадабру в Яндексе. Если в выдаче находится сайт А, но не находится сайт Б с пометкой "найден по ссылке" - делаем вывод, что на сайт А наложен непот-фильтр. Верно ли такое утверждение? Верно ли обратное (т.е. если в выдаче 2 сайта - непота нет)?
Конечно, неверно. По ссылке может быть найден далеко не каждый документ, ссылка могла быть сочтена малозначимой, страницы сайта Б могут плохо ранжироваться по другим причинам и т.д. Верно ли обратное? Полного фильтра, конечно, нет, но автоматический фильтр может сильно уменьшать вес ссылок, не подавляя их полностью. Это не видно по запросу «абракадабра», но будет видно по частотным запросам.
23. 29 сентября 2004. Яндекс научился индексировать документы, созданные по технологии Macromedia Flash (*.swf). Прошло 2 года, но по-моему до конца эта возможность не отработана. Обычному пользователю все-равно как отображается текст - в виде текста или в виде картинки - пользователю важна информация. Планируется ли доработка этой технологии поиска?
Что вы подразумеваете под «не отработана до конца»? Мы не планируем распознавать текст, переведенный в кривые, и интерпретировать исполняемый код ради извлечения ссылок, но обычный текст в swf и ссылки робот понимает.
24. Как в Яндексе передаётся влияние ссылок (тИЦ, вИЦ, ссылочное) при склейках и редиректах в настоящее время, из наблюдений и общения с поддержкой известно. Планируются ли какие-либо изменения в учёте данных факторов? В частности, не планируется ли передавать ссылочное по 301-му редиректу, как то делается в Google?
О своих планах мы заранее не говорим.
25. Использует ли Яндекс при ранжировании что-то похожее на алгорим TrustRank или это только в планах?
Похожий по смыслу алгоритм используется в Яндексе в ранжировании уже несколько лет.
26. Ведутся ли дальнейшие разработки по борьбе с линкаторами? Когда ожидать результатов? Какова ситуация с платными линкаторами? Вы их "видите" или пока еще нет?
Яндекс автоматически обнаруживает многие «накруточные» ссылки и группы аффилированных сайтов. Разработки продолжаются и результаты по мере готовности мы будем внедрять.
27. Сложно ли на Я.Народе написать скрипт автоопределения "доров" или пока не до этого?
За последние 2 дня с narod.ru автоматически было удалено 416 хостов. Такая чистка идет ежедневно.
28. Планируются ли изменения в алгоритме "картиночного" робота? То есть - дифференцированный подход по скорости индексации, для групп сайтов, в этом нуждающихся, скажем, ускорить робота для раздела "культура"... спасибо.
Текущие разработки в Яндекс.Картинках решают задачу улучшения ранжирования.
29. Есть ли в алгоритме расчета Тематического Индекса Цитирования какой-либо временной параметр? Какой диапазон у коэффициента передачи тИЦ от 1 ссылки? Какие параметры влияют на этот коэффициент – тематика всего сайта, тематика страницы, объем контента на странице или еще что-то?
тИЦ — показатель всего сайта и поэтому тема учитывается для сайта в целом. тИЦ зависит исключительно от ссылок на сайт и с него, от темы сайта; на него не влияют другие внутренние факторы.
30. Планируется ли в Яндексе вводить алгоритмы, которые учитывают при передаче ссылочного веса от страницы к странице не только вИЦ ссылающейся страницы и анкор ссылки, но и содержимое страницы, а так же качество и вИЦ той страницы, на которую ссылается данная страница, соответствие тематики и т.д.? Т.е. если «хорошая страница» ссылается на «хорошую страницу» (c объемным контентом, например) передаваемый вес больше, чем когда «хорошая страница» ссылается на «плохую страницу» (малоконтентную, например).
В расчете ВИЦ уже учитывается много больше факторов, чем в классическом алгоритме определения ссылочного ранга страницы. Мы и дальше будем улучшать наш алгоритм определения статического веса страницы.
31. Не могли бы Вы рассказать вкратце, по каким текстовым параметрам Яндекс сортирует документы при расчете их релевантности запросу? Имеются в виду чисто текстово-языковые факторы: качество вхождения слов из запроса (порядок слов, расстояние между ними, разнообразие словоформ из данного запроса в тексте, длинна предложений, наличие каких-то оборотов, стоп-слов, распределение частей речи, наличие слов-синонимов и близкотематических слов и может чего-то еще).
Один из многочисленных вариантов ранжирования текстов в Яндексе довольно подробно изложен в работе на РОМИПе: http://company.yandex.ru/articles/romip2004.xml
32. Правда ли, что при учете анкоров ссылок при ссылочном ранжировании текст ссылки приводится сначала к первичным словоформам (леммам), отбрасываются стоп-слова, и только после этого проводятся расчеты?
Совсем не так. Мы стараемся угадать, насколько запрос соответствует странице. Текст ссылок анализируется с этой точки зрения.
33. Считаете ли Вы правильным учитывать общий вес всех страниц сайта именно по контентной составляющей и тематику при расчете релевантности конкретной его страницы среди страниц других сайтов? Ведь может быть ситуация, когда документ с маленького сайта куда более соответствующий запросу, чем документ с большого сайта, но имеющего больший вИЦ всех страниц (в т.ч. самой релевантной данному запросу)?
Мы не рассказываем детали алгоритма ранжирования.
34. Учитывает ли Яндекс при расчете релевантности наличие сайта в Яндекс-каталоге? И если нет, то почему? А если да, то какое это оказывает влияние? Ведь теоретически, сайты из ЯК проверены вручную, у них точно определена тематика и вероятность того, что документы с этого сайта будут не только релевантны запросу, но и более качественны относительно других сайтов, несколько выше.
Ссылки из Яндекс.Каталога учитываются как ссылки авторитетного сайта.
35. Как Вы считаете, есть ли некая зависимость скорости роста естественной ссылочной массы в зависимости от времени для любого сайта? Имеется ввиду именно изменение скорости прироста количества ссылок с течением времени, а не абсолютного их количества. Если такая закономерность есть, было бы правильным поисковой системе сопротивляться ссылконакрутке при сильном отклонении в сторону увеличения от определенного диапазона скоростей роста ссылочной массы? На сколько я знаю Google такие сайты заносит на время в «песочницу» - отключает ссылочное ранжирование т.к. считает эти отклонения умышленной ссылконакруткой. Может быть у Яндекса есть такие планы?
В алгоритме анализа ссылок мы смотрим и на фактор времени тоже.
Индексация сайтов
36. Существует мнение о наличии явления пессимизации некоторых доменных зон. Это относится в упервую очередь к зонам ua, spb.ru, msk.ru, pp.ru.
Если пессимизация существует, то хотелось бы узнать ее определение Яндексом (грубо говоря почему ресурсы в этих зонах либо не вылазят либо это по полгода происходит), если нет - объясните причины различия в скорости индексации и появления в выдаче этих зон и основной зоны ru. Чтобы упредить любые "округленные" комментарии скажу что имею достаточно большую статистическую выборку, чтобы с уверенностью говорить о подобном явлении, кроме того все домены находятся в русской зоне если смотреть по гео, на русских нс-ах и т.п.
Пессимизации по доменным зонам не существует. На скорость индексации может незначительно влиять факт «прописки» сайта в бесплатной доменной зоне, что объективно связано с более низким качеством расположенных там сайтов и большем количестве спама, но если сайт действительно авторитетный и интересный пользователям, он индексируется быстро.
37. Планируется ли введение нормальной (полноценной) индексации AJAX-сайтов?
О планах мы заранее не говорим.
38. Почему Яндекс не индексирует текст из элементов ввода форм (input, textarea, select...)? Этот текст виден пользователю, значит и должна быть возможность его найти. Google и Yahoo с этим справляются (ссылка на доказательства http://forum.searchengines.ru/showthread.php?t=83295 )
Это не доказательства, а непроверенные гипотезы — в указанном обсуждении Вы некорректно поставили эксперимент.
Ни одна поисковая система из перечисленных не индексирует поле input. Google и Yahoo не находят текст на кнопке, а находят слово запроса в тексте ссылок, т.к. на страницу ya.ru много ссылок с текстом «Найти». Если посмотреть кеш Google, можно заметить примечание: «Эти слова присутствуют только в ссылках на эту страницу: найти». Поискав слово «Go» по странице http://www.skilfully.org/, можно окончательно убедиться, что Google не индексирует тексты кнопок.
Поле textarea индексируется Яндексом, что легко проверить, поискав, например, по тексту страницы http://www.rpsc.ru/version/index.php текст «img border» (часть содержимого textarea). Ни Google, ни Yahoo не индексируют textarea (проверьте!).
Select не индексируется Яндексом именно потому, что содержимое выпадающего списка не видно пользователю до взаимодействия с select-ом и он не понимает, почему найдена страница. Yahoo поступает аналогично, в чем легко убедиться, поискав слово «Яндексе» на странице http://itman.narod.ru/. Google индексирует select.
39. Какие требования у Яндекса к хостинговым площадкам, зная которые можно выбрать ту, которая качественнее всех будет индексироваться, и есть ли список хостингов, сайты на которых индексируются с меньшим приоритетом?
Яндекс не выдвигает требований к хостингам и сайты на любой площадке, которые отвечают нашему роботу, индексируются одинаково быстро. Тем не менее, можно сформулировать рекомендации общего характера.
1. При выборе хостера обращайте внимание на uptime (оно исследуется на таких ресурсах, как http://www.uptime.ru/, http://www.uptime.org.ua/ и других); ширину канала на Россию, если сервера расположены вне РФ; загрузку сервера, на котором будут работать ваши скрипты. Все это в той или иной мере определяет возможность робота «достучаться» до сайта.
2. Почитайте новости, были ли у предполагаемого хостера случаи массового взлома сайтов. Мы сталкивались с примером, когда на «взломанных» сайтах размещали вместе с оригинальным контентом ссылки на спамерские сайты.
Нестабильная работа Яндекса, ошибки алгоритмов, дорвеи
40. Последнее время количество результатов поиска резко сократилось. По слову «москва» всего около 100 сайтов можно найти при листании страниц. Вы говорили, что это какая-то серьезная ошибка метапоиска. Откуда она появилась? Когда планируется полное исправление этой ошибки?
Ошибка появилась, потому что ее не выловили многочисленные тесты. Она проявляется лишь при листании дальше 7-10 страницы, куда заходит очень мало пользователей. В ближайшее время мы планируем локализовать ее и исправить.
41. Как сейчас обстоит дело с техническими ресурсами? Последнее время очень часто по определенным запросам выпадают страницы сайтов, а бывает и тысячи страниц сайтов выпадают из индекса без видимых причин. Выпадение страниц из поисковой базы Яндекса чаще всего объясняется тем, что запись об одном отдельном ресурсе может располагаться на нескольких НМЖД/ПК. Неужели у Вас нет возможности обеспечить целостность поисковой базы? Будет ли нормализована работа Яндекса в этом плане? И если да, то когда?
С техническими ресурсами все отлично. Целостность базы Яндекса поддерживается без сбоев уже много лет. Базовые поиски, где хранится индекс, многократно реплицированы. Поэтому эффект «выпадения страниц» (как называют его оптимизаторы) объясняется, как правило, не техническими сбоями на стороне Яндекса, а сбоями хостеров, ошибками веб-мастеров (вплоть до запрета сайта в robots.txt),понижением позиций сайта по его любимым запросом, что тоже часто называют «выпадением сайта» и т.д.
42. Когда Яндекс исправит ситуацию с удалением сайта из индекса. http://webmaster.yandex.ru/delurl.xml "Все документы по адресу www.site.ru будут удалены из базы Яндекса в течение нескольких дней." растягивается уже более чем на 1-2 месяца по некоторым сайтам.
Если сайт корректно запретил удаляемые страницы в robots.txt и сервис подтвердил, что документы будут удалены, такая задержка не является нормальной. Напишите, пожалуйста, на addurl@yandex-team.ru с указанием адреса своего сайта. В большинстве случаев удаление происходит за несколько дней.
43. Когда планируется своевременное соблюдение директивы Host: в robots.txt? Если сайт индексируется как www.site.ru, когда указано Host: site.ru уже после того, как robots.txt был размещен 1-2 недели, то при этом сайт с www и без www не склеивается более 1-2 месяца и в Яндексе существуют одновременно 2 копии частично пересекающихся сайтов (один 550 страниц, другой 150 страниц, при этом 50 страниц одинаковых). Прокомментируйте, пожалуйста, проблемы с работой «зеркальщика».
Расширение стандарта robots.txt, введенное Яндексом, директива Host — это не команда считать зеркалами два любых сайта, это указание, какой сайт из группы, определенных автоматически как зеркала, считать главным. Следовательно, когда сайты будут идентифицированы как зеркала, директива Host сработает.
44. Переиндексация некоторых авторитетных, часто обновляемых сайтов Рунета (хотя бы их главных страниц) происходит реже 2-3 раз в год. Почему так происходит? "Сохраненные копии" почти всех крупных сайтов имеют дату апрель-август 2006 года, т.е. некоторые сайты не индексируются основным роботом по 6 месяцев! Более того у почти 50% сайтов при нажатии на ссылку "Сохраненная копия" пишется "страница не найдена", т.е. получается что страницы нет в базе Яндекса ...? Прокомментируйте, пожалуйста, эту ситуацию.
Алгоритм обхода робота некоторое время содержал ошибку, которую мы уже нашли и исправили. Она приводила к более редкой переиндексации главных страниц некоторых сайтов основным роботом (меньше чем 5% известных нам сайтов), при этом быстрый робот обходил их исправно.
«Сохраненную копию» нельзя пока посмотреть только для страниц из быстрого робота и это скоро будет поправлено.
45. Отличная задумка выводить в поиске favicon's сайта, но огорчает, что сканирование их на сайте идёт порой до нескольких месяцев, а выдача или невыдача вообще зависит, похоже, от фазы Луны. Ожидаются ли в будущем изменения в сторону более быстрой переиндексации иконок?
Пиктограммы сайтов меняются довольно редко и делать ежедневный обход мы пока не планируем. На данный момент пиктограммы обновляются еженедельно.
46. 13 июля 2006 года в блоге Яндекс заявил, что в большой поиск были внедрены результаты автоматической географической классификации сайтов и "увеличилось количество сайтов, про которые Яндекс 'знает', к какому городу они относятся.
Извините, но на практике это не сильно заметно (возможно, только в моём случае). Есть региональные сайты, которые не могут оплатить регистрацию в ЯКе только для того, чтобы их находили по поиску в регионе. Для таких сайтов специально делалось всё возможное, чтобы попасть под "региональную выборку" классификатора (почтовый индекс города, международный код телефона, название города в домене, название города на сайте в подписи контактов - всё разом).
Прокомментируйте, пожалуйста, работу вышеупомянутой классификации и дайте совет как правильно/полно дать понять Яндексу к какому региону отнести сайт.
Вы перечислили все верно: можно указать на страницах сайта почтовый адрес с индексом, телефон с кодом города. Геоклассификация запускается не при каждом обновлении базы, поэтому после изменения страниц обождите некоторое время.
47. Индексатор Яндекса часто по много индексирует уже забаненные сайты. Это глюк или особенность? Не выгоднее ли было бы направить всю мощность на индексирование нормальных и новых сайтов? Т.к. при нынешнем положении многие сайты подолгу не индексируются и как я понимаю, возможно, именно по этой причине.
Робот может заходить на некоторые удаленные из поиска сайты. Это нужно, например, для автоматического возвращения сайта в поиск. На индексацию других сайтов это никак не влияет, мощностей робота и каналов у нас более чем достаточно.
48. Принесла ли какой-то результат борьба с дорвеями (рупоиск и блокнотик)?
За последние три месяца долю дорвеев, видимую пользователям (находимых в десяти первых результатах) нам удалось существенно уменьшить. Успокаиваться еще очень рано, потому что многие дорвейщики — умные и экономически мотивированные люди, активно ведущие эксперименты по созданию других видов спама и повышению отдачи от существующего. Например, дорвеи мутируют в псевдосайты, основанные на бесплатном или краденном контенте (новости, каталоги, доски объявлений, имитация «живого» сайта и т.д.) Мы будем стараться, чтобы сайты, интересные пользователям, и впредь находились на любой запрос.
Санкции – баны, партнерки, пессимизация, правила Яндекса
49. Возможна ли публикация в сети перечня нарушений влекущих БАН и пессимизацию в редакции Яндекса?
Нет. Поиск Яндекса — результат нашего понимания потребностей пользователей и наших воззрений на ценность информации, структуру веба и его социальные связи. Мы можем быть в чем-то правы, в чем-то ошибаться. И то, и другое влияет на принятие решений, на технологию и, в конечном счете, на результат, необходимый пользователям: могут они найти искомое или нет? Именно пользователи дают нам обратную связь и подтверждают или опровергают наши воззрения.
В то же время, мы планируем опубликовать документ, где более подробно излагаем свои взгляды на качественную и некачественную информацию.
50. Есть ли чёткое определение пессимизации сайтов и её видов? Если возможно, не могли бы Вы рассказать о видах пессимизации Яндексом сайтов.
Пессимизацию можно рассматривать как понижение в результатах поиска сайта и/или его страниц за некачественную информацию или использование обманных техник. Например, если сайт активно участвует в ссылочных обменах, «линкаторах» и другими способами ссылается на «накрученные» ресурсы и спам, он может быть автоматически пессимизирован.
Пессимизация может применяться как к сайту в целом, так и к его отдельным разделам и страницам. Устранение причины, прeведшей к автоматической пессимизации, возвращает сайту нормальные позиции тоже автоматически.
51. Почему за использование одних партнёрок яндекс банит, за использование других нет, невзирая на наличие дополнительного контента на сайте и главную составляющую? Будет ли Яндекс продолжать уничтожать партнерские программы или все таки пересмотрит свое отношение к ним?
Качественный сайт характеризуется оригинальным контентом или сервисом. Реклама не является той ценностью, ради которой пользователи приходят на сайт. Партнерка сама по себе является разновидностью рекламы ресурса организатора партнерской программы. Если партнерская информация сопровождается оригинальным контентом или сервисом, Яндекс не удаляет такие сайты из поиска. (В случае ошибки напишите на addurl@yandex-team.ru.)
52. Снимается ли «непот» с сайтов или это навечно? Платоны способны сказать - на сайте «непот», или они таким термином не оперируют?
Если «непот-фильтр» наложен автоматически, он автоматически и снимается при устранении причин. Служба поддержки не отвечает на вопросы о деталях алгоритма ранжирования, а учет или неучет конкретных ссылок — это именно детали.
53. Почему иногда Яндекс при добавлении URL через форму не сообщает о том, что сайт забанен? Было бы здорово, если бы сразу писалась причина бана или пессимизации.
Мы подумаем над этим, но необходимость в комментариях со временем падает. Доля ручных запретов все время снижается, а любой автоматический алгоритм без участия человека возвращает сайту статус-кво в случае устранения причин запрета.
54. Какими требованиями, по мнению представителей Яндекса, должен обладать каталог, чтобы не отправиться на обед к Платону Щукину? (Качество информации подразумевается по-умолчанию). Уточнение: Играет ли "политкорректность" какую-либо роль в принятии решений о БАНе ?
Каталог как и любой другой ресурс должен быть удобен и полезен пользователям. Стали бы вы создавать каталог (или некоторые его страницы, элементы), если бы не существовало поисковиков? Содержит ли каталог оригинальный контент или сервис (реклама не является контентом)? Скажут ли ваши конкуренты без колебаний, что ваш каталог необходим пользователям и объяснят, почему он ценен? Ответ на эти и подобные вопросы позволит принять решение о ценности вашего каталога.
Политкорректность не влияет на принятие решения об удалении сайта из поиска.
55. Планируется ли ввод санкций против сайтов, продающих прямые нетематические ссылки? В Google уже довольно давно пропогандируют использование аттрибута rel="nofollow" (часто именуемого "link condom" =)) для любых рекламных ссылок, а размещение индексируемой рекламы актив