Как узнать, кто ворует мой контент

Доброго времени суток, уважаемые читатели. Спешу поделиться с вами очень важной информацией, которая будет полезна абсолютно всем. Естественно, я не исключаю того, что кто-то из вас уже в курсе и давно пользуется, но, надеюсь, есть и те, кому моя информация будет полезна.

Как то так получилось, что до недавнего времени я все ломала голову, как же проверить, есть ли на других сайтах мои статьи. Приходилось вбивать какие-то длинные фразы из своих статей в строку поиска, копировать отдельные статьи в программу от адвего, пользоваться услугами инструмента copyscape, в котором ограниченное число запросов в месяц, а платный аккаунт стоит не дешево.

Все эти способы можно отнести к ручным доисторическим методам.
Т.е. каждый из этих инструментов оценивает по одному url или по одной статье.

Основное большинство программ создаются для вебмастеров, которые заказывают статьи у копирайтеров, и рассчитаны на то, что вебмастер получает статьи, вставляет в программу и спустя пару минут получает ответ – уникальна статья или нет.

У меня же (и у всех добросовестных владельцев сайтов) другая проблема, мы пишем статьи для своего блога и совершенно не защищены от того, что любой желающий без зазрения совести может их у нас своровать.

Представляете, сколько нужно времени, что бы хотя бы раз в месяц проверить все статьи блога в программе, которая на это не рассчитана. Ведь, если сегодня моей статьи нет где-то в рунете на другом сайте, то это не значит, что она не появится завтра.

Плагиатчики не дремлют, и каждый день создают сетки сплогов, которые автоматически воруют контент из наших RSS лент, в автоматическом режиме делают синонимайз (замену слов синонимами) и публикуют на своих ресурсах, созданных не для людей, а для продажи ссылок, для обмана поисковых систем.

А это значит, что нужен инструмент, который может просканировать весь мой блог, считать все мои статьи, и проверить каждую в отдельности на уникальность. И главное, чтобы у меня это не занимало более пяти минут. Да, такой инструмент найден.

Даже долго искать не пришлось. Это программа eTXT Антиплагиат. Придумана она была разработчиками проекта etxt.ru (биржа статей).

В общем, каждая уважающая себя фирма разрабатывает подобную программу, но мало кто (или может никто?) не задумывался сделать проверку не только по одному тесту или статье, а по всему сайту в целом. Ведь бывают не только недобросовестные рерайтеры с копирайтерами, но и недобросовестные вебмастера, ворующие статьи с сайтов.

Итак, ближе к делу. О всех достоинствах программы читаем на сайте разработчика, а также познаем в процессе использования. Я же вкратце расскажу о том, как проверить, есть ли в интернете ваши статьи на чужих сайтах.

Качаем программу с официального сайта на этой странице, устанавливаем на свой компьютер, открываем. В меню выбираем Операции – проверка сайта:

Etxt Антиплагиат
Открывается окно – проверка сайта. Внизу окна есть поля: Укажите адрес и максимальное кол-во страниц.
Проверка сайта на уникальность
Если хотите проверить весь сайт целиком, то рекомендую указать максимальное количество страниц на много больше, чем есть в реальности, потому что программа загружает не страницы, как таковые, а URL. И в программу попадают дубликаты страниц (например, с #more), архивы, ярлыки. В общем, все их вы увидите загруженными в окошке. В ручную отбирать целевые страницы необходимости нет, программа сама распознает канонические URL, надо только из выпадающего списка указать "Выбранные".

Выбор страниц для проверки
Но и тут все же просмотрите все выбранные страницы, например, для Blogger программа выбирает архивы, которые нет необходимости проверять на уникальность. Просто снимите галочки у тех страниц, которые не нужно проверять. Когда список страниц готов, выбираем режим проверки:

Запуск проверки статей на уникальность

Я пока проверила самым первым способом. Другие ещё не успела испробовать. Уникальность документов осуществляется с помощью шинглов. Я не сильна в теории шинглов, и даже не знаю, как точно их описать. Читая про них, я в целом понимаю, что это такое, но объяснить своим языком пока не готова. Кто захочет узнать больше о них, поищите в поисковиках. В общем, можно пока на этом не зацикливаться, достаточно знать, что шаг в три шингла, которым осуществляется проверка – достаточно надежен для проверки статей на уникальность.

Кто в этом понимает, может настроить программу по своему усмотрению. Я же пока не успела так глубоко изучить все возможности и настройки программы.

Итак, процесс проверки запущен. Если вы проверяете до пяти страниц, то в конце можно сравнить ваш текст с найденным дубликатом. Если страниц проверяете больше, то будут доступны только последние пять. Но в любом случае, в поле Журнал программа покажет все страницы сайтов, на которых был найден текст, пусть даже измененный.

Найденные совпадения

Дело остается за малым, разобраться с плагиатчиками.

Ещё несколько советов.
  • Если вы отдавали свою RSS ленту в различные рейтинги блогов, то вполне вероятно, могут быть найдены дубликаты с этих сайтов, а также с сайтов социальных сетей, где вы могли делать анонсы. В таком случае, понятно, что это не плагиат, и ссылка есть.
  • Если вы выкладываете в своем блоге куски какого-нибудь кода, то в полне вероятно, что такой же или очень похожий код будет найден на других сайтах. Статьи, в которых вы выкладываете код уникальность всегда ниже, чем у статей без кода.
  • Исключив первые два варианта, проверяя результаты, я определила для себя, что, начиная от 6-8% совпадений, уже стоит насторожиться и проверить найденный сайт. Даже при таком малом совпадении велика вероятность того, что вашу статью синонимизировали, и если это видит программа, то может увидеть и поисковая система. По крайней мере, я убедилась на личном опыте, что в интернете найдено очень много дубликатов моих статей, даже с очень маленьким процентом совпадений.
Очень хотелось бы обратиться к разработчикам программы с благодарностью. И надеждой, что программа так и останется в открытом доступе и всегда будет бесплатной.

И конечно же, хочется обратиться к тем личностям, которые воруют чужой контент: Я хочу, чтобы вам, хоть на несколько секунд, стало стыдно.
Удачи всем.
В блоге установлена система комментариев Disqus. Если Вы не знаете, как оставить комментарий, прочитайте инструкцию Как пользоваться Disqus. Если Вы хотите установить Disqus в свой блог, как это сделать описано в статье Как установить Disqus в блог.