Под парсингом подразумевается процесс, в ходе которого определенный документ анализируется с точки зрения синтаксиса и лексики и преобразовывается; если в нем обнаружены искомые данные, они выбираются для дальнейшего использования. Парсинг Наиболее популярные парсинги в интернетВ интернете наиболее популярными, как гласит сайт it-turn.ru являются парсинги: •контента; •результатов, которые выдают поисковые системы.
Суть парсинга Для чего нужны парсерыДелать это вручную утомительно и непродуктивно, поскольку занимает слишком много времени. Не все веб-мастера могут позволить себе такую рутину. Выручает наполнение сайтов целевой информацией в автоматическом режиме с помощью парсеров – созданных для этих целей различных программ, большой выбор которых представлен на http://it-turn.ru/parsery, обрабатывающих информацию по определенному алгоритму. Они особенно необходимы владельцам интернет-магазинов, в которых – масса однотипных товаров. Нужно описать их, дать технические характеристики, заполнить карточки товаров. Без специальных программ эта работа растянулась бы надолго. Чаще всего одни парсеры работают только с текстами, другие – с изображениями. Однако появились и современные модификации, способные перерабатывать как текстовую, так и графическую информацию. Они не умеют читать, их дело – сравнивать. Задачи поискового робота прописаны в командной строке. При использовании подобного парсера легко: •сохраняется контент независимо от формата и импортируется в различные ЦМС; •парсится не одно тело статьи – при соответствующих настройках может добавляться любая другая информация со страницы (категории, метки); •текст очищается от мусора по заданным параметрам (не удаляя теги или оставляя форматирование абзацев); •настраиваются фильтры, чтобы отыскивать лишь то, что действительно необходимо. Программа парсинга Этические моменты парсингаЭтические моменты парсинга активно обсуждаются. Мнение большинства сводится к тому, что позаимствовать контент, на который не распространяется понятие интеллектуальной собственности, вполне допустимо. Например, когда касается однотипных технических описаний. Если копируются статьи целиком, правильнее указать первоисточник – тогда парсинг будет частично легитимизован. А если отсылки к оригиналу нет, а имеется абсолютное копирование, вплоть до грамматических ошибок, такая ситуация достойна осуждения. Поисковые системы будут рассматривать подобный парсинг в качестве повода, чтобы заблокировать ресурс.
Поиск нужного контента 21.10.2016 |
|