Сразу говорю, кому многа букаф - идите сразу к окончанию.
В связи с загадочным отсутствием 2к страниц своего сайта в индексе Гугла я начал искать причины. Одновременно я примомнил, что после установки на хостинг сайта, его в течении 3 недель не индексировал вообще никто! Ни один поисковик не находил даже главной страницы. Примерно через две недели после реги в Гугле, сайт с шестью страницами и 20стр. форума появился в основном (!) поиске. Примерно через две недели, когда контента стало больше, сайт "вынырнул" во всех остальных поисковиках, однако... Гугл продолжал выкидывать в основном поиске 26стр., в то время как Яша одну - главную. Через некоторое время из основного поиска Гугла полностью исчез форум, перейдя в "сопли", при этом медленное увеличение кол-ва страниц отлично индексировалось в Гугле и Яше, разумеется в доп выдаче. Все было замечательно, и вот недавно произошло вот что. Я в течение недели добавил тысячу стр. новостей и спустя 10 дней никакой индексации не произошло! Причем все новости с высоким % уникальности, минимум 60% - там где много англ текста. Ссылки под leech и через anonym. По этой же схеме еще за неделю было добавлено еще 1.5к новостей. Результат тот же - нет индекса. В "соплях" - все тоже - 450стр, т.е. все страницы до начала массового импорта новостей. Прошло уже две недели, из панели ВМ скормил Гуглу сайтмап, результат интересный:
Формат Sitemap
Отправленные URL 3 163 116 URL в интернет-индексе
Отправлено 03.09.2010 Загружено 06.09.2010
Ошибки и предупреждения в файле Sitemap
Строка Статус Сведения
Ошибок и предупреждений не найдено.
Обратите внимание на 116. Эта строка читается так: 116 URL в интернет-индексе . Т.е. говоря преще, у меня все окей, вот только страниц индексируется в разы меньше реального! Я полез искать инфу и нашел интересную тему:
_http://bizsoftlab.com/blog/archives/302
Полазив по указанным там сайтам типа _http://supplemental.name/ , я решил проверить индексацию страниц у нашего друга Симы, ведь он получал новости по аналогичной схеме. Результат оказался интересным - из 2к новостей в соплях 1.5! А где спрашивается еще 500?
Пока я все это делал, я припомнил случай с Гугловским форумом "Вопросы и ответы". Там, несколько месяцев назад был задан вопрос типа "...Неуштоль на просторах рунета перевелись хакеры и пираты? Люди, где можно бесплатно получить то то и то то...". Ну я не привожу вопрос полностью и немного изменил, но думаю понятно. Так вот я быстренько ответил на этот вопрос со сылочкой на свой сайт, сам файл разумеется лежал не у меня, причем тогда, эта вещь в суперкомплектации была очень не у многих, а толпы народу ее искали. Короче, траф с Гугловского вопроса пошел минимум 100 уников в сутки, иногда до 250! Народ накликал там мне 12 плюсиков! Так продолжалось недели три, затем мой ответ просто потерли, причем сам вопрос остался и остались ответы конкурентов, но (!) у них то этой вещи в качественной комлектации не было, т.е. у них то была лажа! Я перерегился и ответил снова - потерли через два дня. Больше не отвечал. Теперь предлагаю подумать, что происходит? Человек спрашивает, где можно взять пиратский файл. Ему дается "идеальный ответ". Этот ответ стирают. А вот это уже цензура. Причем цензура явно не демократичная. А можно сказать и больше. Это запрет общения. Зачем я это написал я объясню чуть позже. Теперь опишу еще один интересный момент. Когда я добавлял первую тысячу новостей, я спарсил сначала 30 новостей и выбрал из них самую не уникальную. Исходная уникальность была 40%, причем на сайте доноре - 20%, т.е. в плюс дал синонимайзер, И вот с нее я начал настраивать автозамены. Я поднастроил на 70%, а главное в процессе настройки я ее удалял и парсил снова, каждый раз проверяя через Адвего и онлайн сервисы, т.е. мне на сайт сыпались запросы по этой новости. Так вот сейчас, ключевики из этой самой новости на первой строке в "соплях"! И сама новость разумеется присутствует в соплях, а вот многих ее соседей из этой тридцатки нет, хоть в финале все 30 удалены и спарсены под эту настройку!
И что же все это значит?
А значит, по моему это может вот что:
1. Истинные механизмы индексации отличаются от заявленных.
2. Соблюдение Гуглом закона, справедливости и т.д. нереально, так как не адекватно окружающему пространству.
Т.е. Гугл понял, что честно бороться с нарушениями и защищать интересы честных участников законными методами совершенно невозможно и бесполезно. А если сказать проще то борьба с черным сео, пиратством и т.д. в белых перчатках - чушь собачья. Плюс возможно у Гугла проблемы с технической возможностью индексации всех существующих в инете страниц, в результате чего он "экономит". А главный вывод: Может быть Гугл сильно мутит?
А теперь микро вывод как добиться индексации:
Если при плавном добавлении новостей - по 10 штук в день, все они попадали в индексацию, а при добавлении 1к в сутки - задница, при равной уникальности, то:
логично предположить наличие не декларированного фильтра типа "1к в сутки верная примета плагиата".
Теперь предлагаю обсудить и прошу сильно не критиковать с цитатами и оспариваниями, я сам не оч хорошо в теме разбираюсь, потому и создал.