Miky. Дневник дорвейщика


Путь программиста-самурая в нелегком черном деле..

Собираю базу для спама

Июль 25, 2008

Все таки буржунет достаточно сложен.. Обычно боты приходили почти сразу после аддурла, причем иногда все разом (в рунете), тут же – хрен с маслом, уже второй день, а из ботов только MSN заглянул и сразу свалил. Что с этим делать? Правильно, спамить, чтобы пс увидели сайт (определить в нем дорвей даже без захода бота выше моего понимания).

Итак, спам. Первое, что пришло в голову – это блоги. Блогов много, они популярны. Все комментарии посылаются отдельной RSS лентой, которую может зохавать поисковик. Спамилка – простейшая, отправляем 4 поля POST запросом, если 302-ой редирект – значит все ОК.

Где взять базу? Конечно, напарсить с гугла, с блогосервисов и блогохостингов, топов, рейтингов и т.д. Но чуток поискав, нашел отличную базу блогов на wordpress.com с сортировкой по PR. Пока что этого достаточно, хоть она и старовато (но это только плюс, читайте ниже..).

Итак, зафигачиваем 7000 урлов в спамилку и погнали? Не-не-не-не, Девид Блейн, нет! Нафиг оно нам надо? Во первых, надо убрать все меньше двоечки PR. Я для теста убрал все что меньше 5-ки) 120 штук получилось. Затем, как добиться ссылок? Ведь автор спокойно может его удалить, и в итоге теряем кучу времени и ресурсов на ненужный спам (к тому же авторам мешаем, в конце концов они вводят капчу, регистрацию, нестандартные поля и т.д.). Поэтому ищем заброшенные блоги, которые долгое время не обновлялись. Можно ручками, я лично скрипт написал (заходит на блог, хватает RSS ленту, в ленте есть дата обновления..).

От 120 штук осталось 20 блогов, которые не обновлялись больше 3 месяцев (некоторые по полтора года). Далее.. Прошелся по всем, проверил наличие PR на страницах (если ноль – в топку), популярность (если к каждой записи 30-180 коментов – нафига нам такая ссылка?), возможность комментирования (один умник оставил её только для зареганных юзеров), и вообще на валидность блога. Осталось 10 :) Теперь самое простое – проверить наличие модерации. Делатся это обычной проспамкой (я делал все вручную). Если идет премодерация комментариев – либо автор забросил блог и коменты останутся в базе, либо не забросил и промодерирует (и удалит спам), но в любом случае комментарий наш не появятся, только засорим базу.

И вот, спустя несколько часов, ушедших на поиск блогов, написания парсера, чистилки, ручного спама я получил 6 блогов для спама. Зато каких! 1 PR7, 4 PR6, 1 PR5.. Страницы для спама – 1 PR6, 2 PR5. 3 PR4 (четверки можно заменить пятерками, надо поискать еще посты). Модерации нет, капчи нет, наличие авторов – выясняется) Яху эти ссылки видит (хоть там и стоит nofollow), гугля думаю тоже отлично их видит (разве что веса передается меньше, а в поиске он давно не показывает).

Еще можно получать спамить ссылки + текст по теме с помощью этого метода – если авторов нет, то можно как угодно ставить ссылки (я там видел даже арабские и конечно же русские имена комментаторов, ключи то бишь).

Для разнообразия остается выделить все записи с хорошим PR-ом и малым количеством коментов, и вперед! Правда, надо еще базу увеличить (те 7к отфильтровать), плюс пройтись по гуглу или рейтингам для сбора базы. Можно так же в рунете пройтись – заброшенные блоги без модерации комментариев. Думаю, это будет полезно для того же Яндекса.

———————-

Король умер – да здравствует король!
В моем трафике теперь доля Яндекса – 65%, Гугла – 20%. Это была бы достаточно радостная новость, если бы не тот факт, что общее количество трафика упало в 10 раз, а денег – в 30 раз (( Причем трафик с Я&G сильно замусоренный, с рамы идет 7-15% CTR (2-4$ за 1к ), с них же – кое-как дотягивает до 1-4%. В итоге – радостные 2 цента в день (UPD: набирается уже 20 центов.. прогресс!) (( Суммарно в индексе яши 12к страниц, почему так произошло – хрен его знает. В раме все побанено, хотя поиск не идентичен с гуглом (либо это просто улучшение поиска, либо гугл уже встроил механизм чистку выдачи, хотя не сделал её одинаковой с гуглом).

Вобщем, чем быстрее я смогу получать свои копейки в буржунете, тем лучше, ибо все, тема с Рамблером закрыта (хотя, может, и не закрыта.. но одновременный бан всех моих доров.. либо пропалился с одним IP-ом, либо действительно фильтры. Для проверки наверно зафигачу на другом хостинге дорвейчик).

Alexf запостил проэкспайренные домены с PR. Конечно, сейчас их всех зарегали, но мысль это хорошая, к примеру один из доров, что в индексе Яши – был с тицом 30 PR2, и проиндексировался гораздо быстрее остальных. Тут либо это поможет в индексации, либо окончательно прибьет все надежды на траф))