Парсить надежно и универсально


Мои записи / Суббота, Июнь 15th, 2013

Парсинг – это процесс, в котором линейная последовательность лексем формального языка сопоставляется с его формальной грамматикой. Парсинг также называется синтаксическим анализом. Соответственно, парсер (синтаксический анализатор) – программа, которая выполняет синтаксический анализ. Результатом работы парсера является представление исходного текста в виде структуры данных, пригодных ,для дальнейшей обработки.


В современном Интернете парсеры используют ,для извлечения определенного набора данных с различных сайтов – например, информации о товарах, о новых поступлениях, фотографий, интересующих фрагментов текста и представление всего этого в виде некой структуры, которая в дальнейшем может быть каким-то образом использована. Программ-парсеров существует огромное множество, но большинство из них имеет недостаток зависимости парсера от структуры сайта-донора. Таким образом, при смене структуры сайта-донора нарушается нормальная работа и самого парсера.

В данном примере http://tekhnobuild.info/prostejshij-parser-na-php-s-curl с помощью модуля PHP – cURL разбирается создание парсера, позволяющего получать содержимое при изменении страницы-донора, и, соответственно, с других аналогичных страниц.

Пользуясь возможностью настройки опций cURL – можно вплотную подойти к созданию серверного граббера, задавая юзер-агента, отправляя заголовок, использовать авторизацию с помощью кукисов, подключать прокси. Код примера не такой компактный, как использование, например, функции file_get_content(), но более универсальный.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *