Content Downloader VS Datacol

Вступление с лирическим отступлением

В данном сравнительном обзоре речь пойдет о двух наиболее популярных универсальных парсерах рунета: Content Downloader (далее CD) и Datacol.

Но перед тем как перейти к конкретике, хотелось бы сделать небольшое лирическое отступление. По моему скромному мнению, оба продукта действительно заслужили признание в рунете. Каждый из них продается более 5 лет, имеет большую армию поклонников и за свою длинную историю прошел довольно тернистый путь преобразований. Как минимум за это стоит предварительно поставить по плюсику обоим командам разработчиков.

Также, сразу оговорюсь, что данный обзор не будет однозначным аргументом в пользу того или иного продукта. Мои основные тезисы следующие:

  1. И CD и, Datacol оба являются серьезными решениями, однако:

    1. под конкретную задачу

    2. для конкретного человека

    3. с конкретным уровнем технической подготовки

    4. с определенным запасом времени для решения конечной задачи

выбирается один или другой парсер.

  1. Я рассматриваю продукты только с точки зрения моментов, которые важны для меня в моих повседневных задачах.

 

Собственно, сравнение

Итак, лирику в сторону, теперь сухие факты) Еще раз подчеркну - я буду приводить именно те аспекты, которые актуальны для меня. Возможно для вас важен совершенно другой набор свойств программного продукта - тогда не обессудьте - пишите комментарии, или если есть вообще много чего сказать - пишите СВОЙ обзор)))

 

Поддержка

Наличие предустановленных заготовок для парсинга

Когда я был новичком в парсинге для меня это было очень актуально, ведь таким образом я мог сразу после запуска парсера получить результат. То есть ВООБЩЕ БЕЗ какого либо изучения продукта. Со временем, когда я освоил механизм настройки парсеров и когда мои задачи стали более специфичными и сложными, этот момент стал для меня менее значимым. Предустановленные заготовки есть у Datacol (они называются кампаниями). У CD, к сожалению, таковых не обнаружил.

 

Пошаговый видеокурс

Опять же, когда был новичком, для меня было актуально иметь возможность по шагам изучить работоспособность программы. К счастью, у обоих продуктов есть пошаговые видеокурсы. Возможно, у Datacol курс более структурированный, однако это очень субъективно.

 

Форумная поддержка

Присутствует у обоих решений. Единственный момент - я был, мягко говоря, “удивлен”, когда CD выключил возможность создавать на форуме темы. Их аргумент звучит так:

ЗДРАВСТВУЙТЕ, УВАЖАЕМЫЕ ПОСЕТИТЕЛИ ФОРУМА! С 11.01.2016 ФОРУМ ДОСТУПЕН ТОЛЬКО ДЛЯ ЧТЕНИЯ!!! ФОРУМ НАБРАЛ ДОСТАТОЧНОЕ КОЛИЧЕСТВО ТЕМ И ОНИ СТАЛИ ЧАСТО ПОВТОРЯТЬСЯ!!! НАДЕЕМСЯ, ЧТО ИМЕЮЩИЕСЯ ТУТ МАТЕРИАЛЫ БУДУТ ДЛЯ ВАС ПРЕКРАСНЫМ ДОПОЛНЕНИЕМ К СИСТЕМЕ ПОМОЩИ! ЕСЛИ ВЫ НЕ НАШЛИ ОТВЕТА НА ВАШ ВОПРОС ПО ФУНКЦИОНАЛУ ПРОГРАММЫ, МОЖЕТЕ ОПУБЛИКОВАТЬ ВАШ ВОПРОС В РАЗДЕЛЕ FAQ. ЖЕЛАЕМ ХОРОШЕГО ДНЯ! С УВАЖЕНИЕМ К ВАМ, АДМИНИСТРАЦИЯ ФОРУМА!

Не хочу никого обидеть, просто мысли вслух:

Во-первых, задавать на форуме вопрос было явно удобнее, чем на одной страничке FAQ.

Во-вторых, в настраиваемом софте с таким количеством настроек АПРИОРИ всегда будут возникать специфические вопросы, касающиеся конкретных сайтов. Лично мне их удобнее решать на форуме. Однако имеем то что имеем(

Услуги по настройке и консультированию

Оказываются для обоих программ. Однако здесь плюс Datacol - услуги помимо сторонних специалистов оказывает также сама техподдержка. У CD на данный момент есть только сторонние люди, которые занимаются подгонкой программы под нужды заказчика. Возможно, это “мелочи жизни”, однако меня как-то смутила изначально вот эта строка:

Оговорюсь, что не утверждаю, что это плохо или хорошо, просто, проговариваю субъективные ощущения.

 

Технические возможности

Запуск “цепочки” конфигураций

Для меня это было важно, когда реализовал email парсинг по запросам. Удобно, когда можно сделать одну конфигурацию для сбора ссылок по запросу, а затем (когда она завершит выполнение) передать ее результаты на вход другой конфигурации, которая пройдет по этим ссылкам и соберет email адреса. Зачем это нужно - спросите вы. А представьте, если завтра вам понадобится собрать телефоны или контент по запросу. Если ваша настройка разбита на отдельные конфигурации, то вам (в данном конкретном случае) останется только доделать сбор телефонов и сбор контента, а модуль сбора ссылок с выдачи берем ранее настроенный. Вот такая вот экономия времени, для меня время важно, а для вас?

Работа с Cookie

Поддержка предустановленных Cookie есть в обоих программах. CD, к тому же, радует поддержкой Cookie из IE. Пару раз мне приходилось их импортировать.

 

Поддержка многопоточного парсинга браузером с разными прокси/куки/кешем

Этим порадовал Datacol. Хотя это у них появилось только недавно (около полугода назад в 7-ой версии). В CD такого не обнаружил.

Поддержка Socks прокси

Content Downloader поддерживает, Datacol нет. Через обычные прокси оба работают на ура. Для меня это актуально в контексте парсинга маркета и Авито. Datacol еще зачем то убрали в последних версиях встроенный проксичекер. Этого поступка я не понял(

 

Парсинг из файлов

Как то пришлось мне парсить контент из файлов на локальном компьютере. В целом обе программы справляются, только у Datacol еще есть возможность преобразовать Excel в HTML таблицу. Мне лично пригодилось, хотя, навскидку, редко нужная фича.

 

Ценообразование

Тут, имхо, CD выгоднее будет. Datacol продается в виде временных пакетов. CD лицензия вечная. Хотя тут тоже есть моменты, которые стоит учитывать. Datacol даже в минимальном пакете (на месяц) дает полный функционал. У CD на данный момент в зависимости от приобретаемой версии функционал разниться. Актуальные расценки CD смотрите здесь, Datacol здесь.

 

Подытожим в виде таблицы!

Поскольку, очень люблю подытоживать (и считаю это УДОБНЫМ делом), собственно, подытожу все вышесказанное:

 

Характеристики

Content Downloader

Datacol

Предустановленные заготовки

нет

да

Пошаговый видеокурс

да

да

Поддержка на форуме

да, но форум только для чтения(((

да

Запуск цепочки парсеров

да

да

Поддержка Cookie из IE

да

нет

Поддержка многопоточного парсинга браузером с разными прокси/куки/кешем

нет

да

Поддержка Socks прокси

да

нет

Парсинг из файлов

да

да

Ценообразование

вечная лицензия

помесячная аренда

 

Выводы

Собственно, в выводах я напомню свои основные тезисы:

1. Оба продукта действительно заслуживают внимания!

2. В конкретном случае выбирайте тот, который больше подходит именно вам в вашей конкретной ситуации.

3. Что касается “средней температуры по больнице”, ИМХО, продукты равны с точки зрения среднестатистического пользователя, ну или, как минимум, были бы равны, если бы CD не отключили форум (извините не удержался)))

Здесь находится аттестат нашего WM идентификатора 719318431300 Здесь находится аттестат нашего WM идентификатора 719318431300