Frog eTXT helper - помощник проверки уникальности текстов

Frog eTXT helper -- утилита, работающая в связке со Screaming Frog Seo Spider (Лягушка) и программой для ПК Etxt. Лягушка - для парсинга текста, Etxt - непосредственно для проверки на уникальность, а Фех - своего рода связующее звено.




Работа с утилитой

Текст парсится Лягушкой с помощью экстракторов, затем из CSV экспорта экстракторов Лягушки Фехом выдирается текст и распиливается на файлы (1 файл = 1 url сайта с текстом), которые потом проверяются на уникальность с помощью Etxt с сохранением отчёта в файлы, после чего с помощью Феха делается отчёт.

Парсинг текста с сайта

Нужно настроить экстракторы Лягушки и спарсить интересующие текстовые фрагменты страниц, которые и формируют "текст" страниц.

Допустим, спарсили тексты сайта с такими экстракторами (текст над витриной каталога и текст под ней):

Настройка экстракторов Лягушки
В настройках экстракторов нужно выставить "Extract text", т.к. нужно спарсить только текст

Экспортируем со вкладки "Custom Extraction" в CSV (после нажатия "Export" в появившемся диалоговом окне выбираем "Coma Separated Values (*.csv)"):

Экспорт экстракторов из Лягушки

Распиливание CSV на части

Запускаем Фех, выбираем режим "Разрезание на файлы". В поле "экстракторы Лягушки" удобнее всего вбивать порядковые номера экстракторов -- как они идут в интерфейсе Лягушки (считать номера экстракторов самостоятельно, сверху вниз). Но можно использовать и названия экстракторов.

Итак, в нашем примере (с верхним и нижним описанием) вбиваем "1,2" (без кавычек):

Интерфейс распила на файлы

Ставим чекбокс "фильтр по символам" и задаём число символов -- если необходимо отсеять проверку уникальности текстов по числу символов с пробелами. Например, на ряде url'ов у нас слишком коротенькие тексточки, которые не хотим проверять на уникальность.

Выбираем наш файл CSV, пустую (!) папку, куда будут сохранены файлы и нажимаем "старт", и ждём завершения работы утилиты.


Фех корректно распознаёт и обрабатывает составные экстракторы (когда элемент встречается несколько раз на странице)
Например, у нас такой CSS селектор указан для экстрактора:

div.text-fragment

И на целевых страницах (откуда парсится текст) есть несколько блоков с классом text-fragment. В таком случае у нас в экспорте экстракторов в первой строке будет примерно следующее:


"Address","Status Code","Status","text fragment 1 1","text fragment 1 2","text fragment 1 3"

Фех корректно распознает, что все 3 элемента относятся к экстрактору "text fragment".


После "распила" CSV в указанной папке будут текстовые файлы, каждый из которых будет соответствовать одному url'у сайта, с "выдранным" на данном url'е текстом

Также, будет файл-словарь для соотнесения имён файлов и url'ов. Это понадобится далее.


Проверка уникальности обычная

Запускаем Etxt, настраиваем как нужно (в частности, неплохо исключить сайт, с которого спарсили тексты), и вот это надо задать на вкладке "отчёт":

Интерфейс настроек Etxt

Далее в главном меню Etxt выбираем "операции" -> "пакетная проверка", указываем папку, где сохранены были наши файлы при распиле CSV, выставляем прочие настройки при необходимости. Запускаем проверку на уникальность и ждём её завершения.


Формирование отчёта по уникальности

Запускаем Фех, выбираем режим "Формирование отчёта". Выбираем папку с нашими файликами (теперь она содержит и *.html файлы с данными по уникальности текстов) и нажимаем "старт".
В результате будет сформирован файл index.html в папке с файликами. Открыв его увидим нечто вроде такого:

Результат от Феха

Можно сортировать таблицу по любой колонке, экспортировать в Эксель, скопировать. Также, url'ы кликабельны, и ведут на соответствующие результаты проверки Etxt, включая подсветку неуникальных кусков текста, на каких url'ах в интернете найдены копии/частичные копии.

Когда/если автор Etxt сменить механизм пакетной проверки, или даже просто вёрстку *.html файлов результатов, формирование отчёта Фехом может отвалиться

Проверка уникальности только в рамках сайта

С тех пор, как появилась возможность проверять неполные дубли контента с помощью Лягушки, ценность возможности локальной проверки рассматриваемой утилитой сильно упала

Если проверяем уникальность текстов по сайту, то всё то же самое, что и для обычной проверки, только выбираем "операции" -> "пакетная проверка" -> "локальная проверка":

Интерфейс пакетной проверки Etxt

Чтобы работала локальная проверка от Etxt необходимо, чтобы папка с нашими файликами была проиндексирована Виндой

Единственное, результат локальной проверки после формирования отчёта Фехом будет мало пригоден -- в деталях проверки (когда кликнуть на url в отчёте) будут указаны имена файлов, где есть дублирование, а не url'ы. Разве что для общей прикидки, на каких url'ах на сайте дублируется текст (тем более, это быстро и нет расходов на антикапчу).
Хорошо бы мне довести до ума, но как-то лениво.


Приостановка и возобновление работы Etxt

Работу Etxt можно в любой момент приостановить. Чтобы продолжить с места остановки, не теряя прогресс проверки, надо запустить Фех и выбрать режим "Отсев отработанного", установить радиобатон в положение "Последний" и нажать "старт":

Чистка html файлов Фехом
Удаление последнего файла-отчёта Etxt необходимо, потому что при прерывании проверки он может содержать недействительные данные по уникальности, и надо его переделать

Также, полностью отработанные (проверенные на уникальность) текстовые файлики упаковываются в архив, чтобы исключить их повторную обработку с помощью Etxt при возобновлении проверки.


Достоинства

  • Помогает недорого (расходы на антикапчу) и массово производить проверку текстов на уникальность;
  • Возможность проверять произвольные тексты, приведя их к виду CSV экстракторов Лягушки (число колонок и разделение элементов);
  • И вообще, данный раздел здесь потому, что есть раздел недостатков.

Недостатки

  • Возможно наличие (гораздо) более лучших альтернатив на рынке;
  • Знание CSS-селекторов и/или Xpath -- чтобы парсить тексты Лягушкой;
  • Долго ждать окончания работы Etxt, если текстов (url'ов) много;
  • Кривоватый отчёт для локальной проверки;
  • Необходимость подключения к интернету для скачивания компонентов для формирования отчёта (да, тут тоже кривовато сделал, но благо, что постоянный интернет на ПК сейчас есть практически у всех, наверное).

Альтернативные решения

Etxt проверка сайта со спец. тегами

У этой программы есть (или была?) фича, которая заключается в том, что можно в HTML коде выделить нужные фрагменты специальными тегами, и Etxt при проверке уникальности вычленяет эти куски текста и проверяет непосредственно их, а не весь текст как происходит при обычной проверке сайта. Вроде бы так.

Находил я в ветке на Searchengines соответствующую инфу от разработчика (?), но, увы, не сохранил, а сейчас не могу найти.

Если есть возможность массово расставить нужные теги на сайте, то этот вариант может быть лучше костылей вроде Феха. Однако, уникальность по сайту таким способом может и нельзя проверить, но не утверждаю, т.к. не разобрался.


BatchUniqueChecker

Программа здесь, пост на VC здесь. Не смотрел, не проверял.

Использованные картинки: 1