Участник:CopyvioCheckerBot (Rcgvmunt&CopyvioCheckerBot)

Перейти к навигации Перейти к поиску
Железяка
Этот участник является бездушной железякой

Этот бот выполняет одну единственную функцию: проверка статей на наличие нарушений авторского права

Описание работы

[править | править код]

Бот получает список новых (только что созданных) страниц

Он отправляет запрос на проверку copyvio на этот сайт

Если уровень превысит 60%, то в зависимости от процентного соотношения он оставит на странице обсуждения шаблоны {{:У:CheckerCopyvioBot/Копиво 60%}}, или {{:У:CheckerCopyvioBot/Копиво 80%}}

Страницы с подозрением на копивио регистрируются на список к проверке

Участники, которые записались получать уведомления от бота и разгребать завалы получают уведомление о новом копивио

Технические подробности

[править | править код]

Хостится на tools.wmflabs.org, проверяет список новых страниц каждые 10 минут. Проверяются только первые правки новых страниц, поскольку статьи Википедии очень быстро репостятся по интернету, в частности на сайты-зеркала. Так мы избавляемся от ложных срабатываний из-за сравнения статей с их же репостами.

Используется сервис проверки https://tools.wmflabs.org/copyvios. Который сделан для бота EarwigBot, но тот бот для проверки использует англ. поисковик Yahoo!, запросы к которому оплачены WMF.

Создание более массовых проверок пока не планируется. Ибо сервис проверки использует Google, у которого бесплатный лимит ~1000 запросов за сутки. В среднем по воскресеньям в ВП создается не больше 300 статей, в другие дни меньше. Бот исключает статьи не нуждающиеся в проверке, на данный момент это неоднозначности. (Возможно стоит добавить фильтры по размеру статей, и с шаблонами, когда текст добавлен из свободных источников.)

В сервисе проверки имеется белый список (игнорлист) сайтов, также учитываются игнорлисты en:Wikipedia:Mirrors and forks и meta:User:EranBot/Copyright/Blacklist. Можно сделать дополнительный список.

Исходный код

[править | править код]