Грабберы контента с других сайтов

16.06.2009 | Категория: Web-мастеру и не только | Автор: ManHunter

Грабберы контента - это специальные скрипты или программы, которые получают некоторую информацию напрямую из текста html-страниц других сайтов, чаще всего без их ведома или разрешения. Название произошло от транскрипции английского глагола "to grab" - "захватывать", "использовать", хотя и русский вариант корня "грабить" тоже иногда подходит. Вообще, тырить чужой контент и использовать его на своих сайтах нехорошо. Но в некоторых случаях считаю это допустимым, например, когда для мобильных устройств требуется получить облегченные версии страниц сайтов, которые не имеют такой штатной функции. Или же надо удалить со страницы всякую рекламу, а то некоторые ублюдочные сайты умудряются заталкивать баннеры даже в RSS-ленты. Или, например, если требуется получать информацию с сайтов, у которых нет собственных API для выгрузки контента.

Самый простой способ получить текст нужной html-страницы сайта - при помощи функции PHP file_get_contents. Текст загруженной страницы разбирается регулярными выражениями. Вот пример граббера для Цитатника Рунета. После извлечения цитат с главной страницы можно вывести их все списком, как сделано в этом примере, или показать случайным образом одну из них.

Code (PHP) : Убрать нумерацию

<?
//-----------------------------------------------------------
// Граббер цитат с Цитатника Рунета bash.org.ru
// Загружает и парсит главную страницу, цитаты помещает в массив
//-----------------------------------------------------------
// Получить html-страницу
$grab=@file_get_contents("http://bash.org.ru");
if ($grab) {
// Заменить теги переноса строки на простые переносы строки
$grab=str_replace("<br>","\n",$grab);
// Получить регулярным выражением тексты цитат
preg_match_all("/<div class=\"vote\">([^>]*>){12}([^<]*)/",$grab,$matches);
// В массиве содержатся все найденные строки
for ($i=0; $i<count($matches[2]); $i++) {
echo nl2br($matches[2][$i]);
echo '<hr>';
}
}
else {
echo "Connection Error";
}
?>

Регулярные выражения для извлечения данных придется писать самостоятельно, для каждого сайта свои. Отлаживать регулярные выражения можно как в онлайне здесь или здесь, так и с использованием стационарных программ. Для браузера Firefox есть хорошее расширение Regular Expressions Tester.

Еще один простой граббер курса доллара с Яндекса. Там хранятся данные о курсе аж с 1998 года и по сегодняшнюю дату включительно. Но в этом случае список упорядочен в CSV-файле. Такой список удобнее всего загрузить функцией file и обработать полученный массив.

Code (PHP) : Убрать нумерацию

<?
//-----------------------------------------------------------
// Граббер курса доллара с Яндекса
// Загружает в массив курс доллара за период с 01.01.1998 по
// сегодняшнее число
//-----------------------------------------------------------
// Получить csv-файл и занести его в массив
$grab=@file("http://www.yandex.ru/s/1.csv");
if (count($grab)) {
for ($i=0; $i<count($grab); $i++) {
// Разобрать строку массива на дату и курс
list($v_date, $v_kurs)=explode(";",$grab[$i]);
echo "Дата: ".$v_date." - Курс: ".$v_kurs;
echo '<hr>';
}
}
else {
echo "Connection Error";
}
?>

Более сложный способ получения страниц использует библиотеку CURL. Но зато этот способ позволяет получать контент страниц по защищенному протоколу https и ftp, использовать сессии, Basic-авторизацию, эмулировать ввод логина и пароля для доступа к закрытым разделам сайтов, и вообще полностью повторять работу обычного браузера. Естественно, что PHP на вашем сервере должен быть собран с модулем CURL. Все нужные заголовки для эмуляции браузера и ответы сервера удобнее всего отслеживать при помощи расширения Live HTTP Headers для Firefox. Вот пример граббера с авторизацией и работой по защищенному протоколу, который получает список файлов на вашем премиум-аккаунте файлообменника RapidShare.com.

Code (PHP) : Убрать нумерацию

<?
//-----------------------------------------------------------
// Граббер ссылок с премиум-аккаунта RapidShare.com
// Загружает в массив список файлов, хранящихся на аккаунте
//-----------------------------------------------------------
// Логин и пароль от вашего премиум-аккаунта
$login="тут_ваш_логин";
$password="тут_ваш_пароль";
// Установить URL для загрузки
$url="https://ssl.rapidshare.com/cgi-bin/premiumzone.cgi?export=1";
// Установить Cookies для авторизации
$cookie="user=".$login."-".urlencode($password);
// Инициализация CURL
$ch=curl_init();
// Установка URL и всех необходимых значений
curl_setopt($ch,CURLOPT_URL, $url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt($ch,CURLOPT_COOKIE,$cookie);
curl_setopt($ch,CURLOPT_SSL_VERIFYPEER,0);
// Выполнить запрос и получить результат
$output=curl_exec($ch);
$info=curl_getinfo($ch);
if ($output!==false) {
// В массиве $links список ссылок
$links=explode("\n",$output);
}
else {
echo "Connection Error: ".curl_error($ch);
}
?>

В некоторых случаях придется обрабатывать несколько страниц, например, сперва выполняется эмуляция ввода логина и пароля, получение идентификатора сессии, а только потом загружается нужная страница с указанием этого идентификатора в заголовках запроса. Все необходимые функции и параметры библиотеки CURL подробно описаны в официальной документации.

Как защититься от автоматического извлечения контента? Если используются только функция file_get_contents или file, то достаточно проверять поле USER_AGENT и блокировать доступ на сайт, если это поле пустое. К сожалению (или к счастью?) этот способ не будет работать при использовании граббером библиотеки CURL или сокетов с эмуляцией всех заголовков браузера, тут поможет только бан по ip сервера, с которого выполняется граббинг. Это, кстати, практикует Яндекс, блокируя ip-адреса, с которых слишком часто вызываются одни и те же страницы.

Просмотров: 50263 | Комментариев: 17

Метки: PHP, SEO

Внимание! Статья опубликована больше года назад, информация могла устареть!

Я НИКОМУ не пишу ни на скайп, ни на почту, никуда. Кому чо надо - отправляете письмо на обратную связь с подробнейшим описанием задачи и ТОЧНОЙ СУММОЙ, которую вы заплатите. А дальше посмотрим.

Максим (12.12.2012 в 11:49):

ManHunter, Привет! Напиши мне в скайп договоримся.

Арутр (08.11.2011 в 19:52):

а как еще можно вывести дату

Максим (04.01.2011 в 15:04):

А я вот для парсинга использую DOM модель.

Deregan (01.12.2010 в 20:35):

Спасибо Вам!!! Очень полезная информация!

ManHunter (30.06.2010 в 12:36):

Руками. Если не умеешь руками, то платишь деньги тому, кто умеет.

Алексей (30.06.2010 в 12:32):

Как можно сделать граббер для прокси? Например, с сайта http://fineproxy.ru/.

ManHunter (14.03.2010 в 17:44):

Заплатить денег, например.

Oleg (14.03.2010 в 17:28):

А как сделать так чтобы первый парсер сам создавал xml файл и записывал туда награбленное.

effrit (11.03.2010 в 13:18):

спасибо, добрый человек, очень полезная статья и сопутствующие ссылки.

Гошка (22.11.2009 в 18:36):

А можно ли по подробней (или линку на эту тему) про случай, когда надо обработать несколько страниц. Я пробую на mail.ru, отсылаю данные авторизации на соответствующую страницу, приходит заголовок с редиректом, кукисами и разной другой инфой. Вторым шагом перехожу с указанными кукисами и редиректу - возвращается тоже самое, что отправил. А если при переходе кукисы не указывать, то возвращается пустая стандартная форма для авторизации.
В общем, как я понял, для корректной работы граббера нужно грамотно сымулировать работу кукисов, но я кокрентно пока не знаю как это сделать.

ManHunter (22.09.2009 в 19:35):

за 20$ сделаю

alex (22.09.2009 в 19:33):

сделаешь мне граббер текста с одно сайта?

Vitalij (13.08.2009 в 02:30):

Заибок статья! Помогла сграббить 10 000 новостей. Осталось разобраться с 3 вариантом.

Жека (08.08.2009 в 20:31):

Ну, я пользуюсь прогой поудобней да и ссылки берет не только с рапиды но и с других обменников всё в одном окне вот скрин http://s42.radikal.ru/i097/090...6195d5e3.jpg
а вот сама прога http://rapidshare.com/files/26...etriever.rar

Добавить комментарий

Заполните форму для добавления комментария

Если программист в девять утра уже на работе, значит он там же и ночевал

Главная страница Web-мастеру и не только Образ мышления: Assembler Мои программы Software Темная сторона Силы Обзоры техники А еще я туда ем! Жизнь в оффлайне Всякая всячина

Карта сайта Ссылки Обратная связь Правила сайта Настройки сайта RSS-канал

Материалы, опубликованные на этом сайте, не рекомендуются к просмотру лицам в возрасте до 16 лет без присутствия взрослых.

Метки статей

Свернуть

Вам помог этот сайт?

Поблагодарили 34,320 раз

День работника ломоперерабатывающей отрасли России

День российской полиграфии

День юридической службы Министерства внутренних дел России

День принятия Крыма, Тамани и Кубани в состав Российской империи

День подснежника

Нашли на сайте орфографическую ошибку? Выделите ее мышкой и нажмите

Ctrl

Enter

Буду очень благодарен, если размеcтите мою кнопочку:

<a href="https://www.manhunter.ru" target="_blank"><img src="https://www.manhunter.ru/images/button.gif" alt="Личный блог ManHunter'а" title="Личный блог ManHunter'а" width="88" height="31" /></a>

$Яндекс тИЦ: {YANDEX_TIC}$

Яндекс ИКС: 380

Сейчас я слушаю

---

- автообновление

Powered by PCL's Speckled Band Engine 0.2 RC3
© ManHunter / PCL, 2008-2024
При использовании материалов ссылка на сайт обязательна
Время генерации: 0.11 сек. / MySQL: 2 (0.0086 сек.) / Память: 4.5 Mb

	2024 - АПРЕЛЬ
Пн	Вт	Ср	Чт	Пт	Сб	Вс
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Грабберы контента с других сайтов

Комментарии

Добавить комментарий