WebCite (WebCite)

WebCite
WebCite
	WebCite
	;
URL	webcitation.org
Тип сайта	архив
Язык (-и)	английский
Владелец	Университет Торонто
Создатель	Гюнтер Эйзенбах[вд]
Начало работы	18 ноября 2003
	Медиафайлы на Викискладе

WebCite — сервис веб-архивирования, запущенный в 2003 году по инициативе Гюнтера Эйзенбаха^[англ.] из Торонтского университета. WebCite обеспечивает долгосрочную доступность URL-адресов. Сервис не использовал поисковых роботов для архивирования ресурсов целиком и обрабатывал запросы пользователей на сохранение отдельных страниц. WebCite «захватывал» HTML, PDF, CSS, JavaScript, изображения и другие составляющие веб-страницы.

С июля 2019 года WebCite из-за многолетних финансовых проблем был фактически свёрнут: сервис больше не принимает запросы на архивацию, однако продолжает обслуживать уже созданные архивы. До этого сервис был одним из самых популярных инструментов в своей нише, активно использовался в Википедии для архивации источников.

История

Идея создания WebCite принадлежит Гюнтеру Эйзенбаху^[англ.], сотруднику Centre for Global eHealth Innovation (с англ. — «Центр глобальных инноваций в области здравоохранения») при Торонтском университете. Изначально Эйзенбах задумывал WebCite как платформу, которая будет не только сохранять интернет-ресурсы, но и определять их «индекс цитирования» (аналог импакт-фактора), измеряя количество гиперссылок, ведущих на тот или иной веб-сайт. В 1998 году Эйзенбах обосновал необходимость такого сервиса в своей статье о контроле качества интернета, опубликованной в PubMed Central^[1]. В этом же году был запущен одноимённый пилотный проект, который, однако, не был продлён — с расширением сферы деятельности «Архива Интернета» и Google Cache отпала острая потребность в таком сервисе^[2].

Эйзенбах перезапустил WebCite в 2003 году. К этому его подтолкнула вышедшая в Science статья о вымирании ссылок в научных работах, обозначившая недостаток стандартизации в сфере электронного архивирования^[3]. К тому же все существующие на тот момент сервисы веб-архивирования сохраняли ресурсы с помощью поисковых роботов (или веб-краулеров), архивация веб-страниц по запросу была невозможна. WebCite заполнил эту нишу и стал первой платформой такого рода, архивирующей страницы по запросам пользователей. Партнёрами проекта стали факультет информационных исследований и библиотека Торонтского университета^[англ.], а также «Архив Интернета». Помимо этого, был создан одноимённый некоммерческий консорциум, членами которого могли стать редакции научных журналов и издательства. К 2008 году в него вошли около 200 участников^[4]^[2]^[4].

Первое время после создания WebCite финансировался средствами Centre for Global eHealth Innovation. Частично работу сервиса оплачивали члены консорциума, которым требовалось архивировать использованные в авторских публикациях ссылки^[5]. С 2011 года WebCite испытывал проблемы с финансированием, поэтому Эйзенбах рассматривал возможность коммерциализации сервиса. В 2012 году WebCite был вынужден покинуть Международный консорциум сохранения интернета^[англ.], так как, согласно твиту Эйзенбаха, не имел возможности оплачивать ежегодный членский взнос в €4000^[6]^[7].

В 2013 году Эйзенбах начал кампанию по сбору пожертвований на модернизацию WebCite. Заявленная сумма составляла $25-50 тысяч, подразумевалось, что в том числе она покроет перенос базы данных на Amazon EC2 (на 2012 год размер архива составлял 2 терабайта^[8]) и правовую поддержку. Сбор проходил на платформе FundRazr^[англ.]^[8].

Сервис активно использовался в работе Википедии. Ещё июне 2009 года из-за увеличенной нагрузки на серверы, вызванной работой бота WebCiteBOT в англоязычном разделе, WebCite был временно недоступен. Полное восстановление заняло несколько недель^[9]. На фоне постоянных финансовых трудностей WebCite редакторы Википедии в феврале 2013 года предлагали Фонду Викимедиа взять под контроль проект, так как с его помощью на тот момент было архивировано более 500 000 ссылок из вики-статей, однако всё ограничилось обсуждением идеи внутри сообщества^[10]. Также сайт был временно недоступен в 2013 и 2014 годах^[11].

Финансовые трудности привели к фактическому закрытию проекта. С июля 2019 года WebCite не принимает новые запросы на архивацию, но продолжает поддерживать доступ к уже созданным веб-архивам^[12]^[13].

Принцип работы

WebCite обеспечивает долгосрочную доступность URL-адресов, архивированных по прямому запросу пользователей. В основе сервиса лежит исключительно открытое программное обеспечение^[14]^[2]. Слово WebCite является зарегистрированной торговой маркой^[15].

WebCite чаще применялся для сохранения статических сайтов. Как и многие другие сервисы веб-архивирования, он не мог в полной мере сохранять сложные веб-страницы с динамическим контентом^[16].

WebCite предоставлял пользователям три основных инструмента для архивации. Первый — специальная форма на сайте с полями для указания URL и электронной почты, на которую приходили ссылки на копию запрашиваемой веб-страницы. Второй инструмент — букмарклет или небольшая JavaScript-программа, устанавливаемая в браузер и позволяющая сохранять выбранные веб-страницы прямо в момент их просмотра в интернете. Третий способ под названием Comb заключался в «оптовом» архивировании — сервис формировал список всех гиперссылок на указанной странице, и пользователь мог указать те ресурсы, которые необходимо сохранить. Инструмент Comb больше всего подходил для обработки разбитых на несколько страниц крупных статей^[5].

После ввода URL WebCite делал «снимок» страницы, сохраняя копию HTML и загружая изображения (или любые другие файлы, например, в формате PDF) на сервер^[4]. После этого пользователи получали на указанную электронную почту письмо с двумя новыми ссылками. Первая, более длинная, содержала в себе URL оригинальной страницы и дату архивации, и могла быть использована вместо исходного адреса. Вторая, более короткая, не содержала этой информации и чаще всего указывалась в дополнение к исходному URL. Таким образом, WebCite работал и как сокращатель ссылок^[2]. Также каждой сохранённой веб-странице присваивали уникальный числовой идентификатор^[5].

Длинная и короткая версия ссылки: https://webcitation.org/query?url=http://en.wikipedia.org/wiki/Main_Page&date=2008-03-04; http://webcitation.org/5W56XTY5h Архивная копия от 16 февраля 2012 на Wayback Machine

Посетители сайта могут искать документы в коллекции WebCite, используя URL, дату создания копии страницы или присвоенный ей идентификатор^[5].

Использование

Авторы, редакторы и издатели, заинтересованные в создании рабочих ссылок на сетевые источники, которые можно использовать для цитирования в академических публикациях, широко применяли WebCite^[5]^[6]^[17]. Услуги по архивированию предоставлялись бесплатно, однако издатели могли войти в одноимённый консорциум и за членский взнос получить доступ к услуге ретроспективного архивирования — в таком случае WebCite настраивал поисковых роботов для «прочёсывания» статей организации на предмет несохранённых URL-адресов. Также входящие в консорциум издания прописывали использование сервиса в своих положениях и предписывали авторам архивировать все используемые ссылки через WebCite перед подачей рукописей^[18]^[14]^[19].

Работа WebCite была основана на доктрине добросовестного использования. Сервис рассматривает архивные копии страниц как трансформативные произведения — общественно-полезные для научных исследований и не наносящие вреда рыночной стоимости любой охраняемой авторским правом работы^[4]^[5]. Поэтому WebCite не запрашивал разрешение для архивации того или иного ресурса, однако удалял страницы из публичного доступа по требованиям правообладателей. Такие работы помещались в «тёмный архив» (англ. dark archive), доступ к которому можно было получить на платной основе — $200 за 5 страниц плюс $100 за каждые последующие 10 страниц. Сервис соблюдал стандарт исключений для роботов, теги no-cache и no-archive^[14]^[20].

В России домен webcitation.org внесён в Единый реестр запрещённых сайтов. Сервис был добавлен в реестр по решению МВД 20 ноября 2020 года, в качестве причины указана «пропаганда или сбыт наркотиков»^[21].

Примечания

↑ Diepgen, 1998.
↑ ¹ ² ³ ⁴ Eysenbach, 2008, pp. 378—389.
↑ Going, Going, Gone: Lost Internet References (англ.). Science (31 октября 2003). Дата обращения: 21 декабря 2021. Архивировано 22 декабря 2021 года.
↑ ¹ ² ³ ⁴ WebCite® Consortium FAQ (англ.). WebCitation. Дата обращения: 21 декабря 2021. Архивировано 29 сентября 2011 года.
↑ ¹ ² ³ ⁴ ⁵ ⁶ Алексей Кутовенко. Интернет-летописцы. Сервисы кэширования веб-ресурсов (англ.). OSP-Гид по технологиям цифровой коммуникации (6 ноября 2011). Дата обращения: 26 декабря 2021. Архивировано 31 мая 2020 года.
↑ ¹ ² Ian Milligan. Three Tools for the Web-Savvy Historian: Memento, Zotero, and WebCite (англ.). Active History (7 июля 2014). Дата обращения: 21 декабря 2021. Архивировано 24 сентября 2021 года.
↑ Twitter post (англ.) (11 июня 2012). Дата обращения: 21 декабря 2021. Архивировано 5 марта 2016 года.
↑ ¹ ² Conversation between GiveWell and Webcite on 4/10/13 (англ.). Give Well. Дата обращения: 21 декабря 2021. Архивировано 20 ноября 2021 года.
↑ Gunther Eysenbach (англ.). Twitter. Дата обращения: 27 декабря 2021. Архивировано 6 июня 2019 года.
↑ WebCite (англ.). Meta - Wikimedia. Дата обращения: 21 декабря 2021. Архивировано 24 ноября 2021 года.
↑ Данные о работоспособности сервиса на протяжении его истории носят фрагментарный характер
↑ Fund WebCite (http://www.webcitation.org) (англ.). FundRz. Дата обращения: 18 декабря 2021.
↑ Archive Now (archivenow) (англ.). GitHub. Дата обращения: 20 декабря 2021. Архивировано 20 декабря 2021 года.
↑ ¹ ² ³ Eysenbach, 2005.
↑ WebCite Legal and Copyright Information (англ.). WebCite Consortium. Дата обращения: 16 июня 2009. Архивировано 25 июля 2008 года.
↑ Matthew Cockerill. Webcite links provide access to archived copy of linked web pages (англ.). BMC (17 сентября 2007). Дата обращения: 21 декабря 2021. Архивировано 31 августа 2021 года.
↑ Alexander Lawrence. Unveiling Hidden Connections with Google Analytics IDs (англ.). Bellingcat (23 июля 2015). Дата обращения: 21 декабря 2021. Архивировано 27 октября 2021 года.
↑ Михаил Горбунов-Посадов. Живая публикация (англ.). OSP. Дата обращения: 26 декабря 2021. Архивировано 13 июня 2019 года.
↑ Leighton Walter Kille. The growing problem of Internet “link rot” and best practices for media and online publishers (англ.). The Journalist's Resource (9 октября 2015). Дата обращения: 21 декабря 2021. Архивировано 10 октября 2021 года.
↑ WebCite takedown requests policy (англ.). WebCite. Дата обращения: 27 декабря 2021. Архивировано 11 декабря 2021 года.
↑ Заблокированный сайт webcitation.org (англ.). Rubanlist.com — список запрещенных сайтов. Дата обращения: 1 января 2022. Архивировано 3 января 2022 года.

Литература

Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages (англ.) // J Med Internet Res. — 2005. — Vol. 7, iss. 5. — doi:10.2196/jmir.7.5.e60.
Eysenbach G. Preserving The Scholarly Record With WebCite (www.webcitation.org): An Archiving System For Long-Term Digital Preservation Of Cited Webpages (англ.) // Proceedings ELPUB 2008 Conference on Electronic Publishing. — Toronto, Canada, 2008.
Eysenbach G., Diepgen T. Towards quality management of medical information on the internet: evaluation, labelling, and filtering of information (англ.). — 1998. — Vol. 317, iss. 7171. — doi:10.1136/bmj.317.7171.1496.

Ссылки

Официальный сайт Архивная копия от 12 ноября 2017 на Wayback Machine

[_a63df0b077d63022-1] Diepgen, 1998.

[_ca4a6ad41e7cd2ab-2] ¹ ² ³ ⁴ Eysenbach, 2008, pp. 378—389.

[3] Going, Going, Gone: Lost Internet References (англ.). Science (31 октября 2003). Дата обращения: 21 декабря 2021. Архивировано 22 декабря 2021 года.

[FAQ-4] ¹ ² ³ ⁴ WebCite® Consortium FAQ (англ.). WebCitation. Дата обращения: 21 декабря 2021. Архивировано 29 сентября 2011 года.

[Кутовенко-5] ¹ ² ³ ⁴ ⁵ ⁶ Алексей Кутовенко. Интернет-летописцы. Сервисы кэширования веб-ресурсов (англ.). OSP-Гид по технологиям цифровой коммуникации (6 ноября 2011). Дата обращения: 26 декабря 2021. Архивировано 31 мая 2020 года.

[Milligan-6] ¹ ² Ian Milligan. Three Tools for the Web-Savvy Historian: Memento, Zotero, and WebCite (англ.). Active History (7 июля 2014). Дата обращения: 21 декабря 2021. Архивировано 24 сентября 2021 года.

[7] Twitter post (англ.) (11 июня 2012). Дата обращения: 21 декабря 2021. Архивировано 5 марта 2016 года.

[Give_Well-8] ¹ ² Conversation between GiveWell and Webcite on 4/10/13 (англ.). Give Well. Дата обращения: 21 декабря 2021. Архивировано 20 ноября 2021 года.

[9] Gunther Eysenbach (англ.). Twitter. Дата обращения: 27 декабря 2021. Архивировано 6 июня 2019 года.

[10] WebCite (англ.). Meta - Wikimedia. Дата обращения: 21 декабря 2021. Архивировано 24 ноября 2021 года.

[11] Данные о работоспособности сервиса на протяжении его истории носят фрагментарный характер

[12] Fund WebCite (http://www.webcitation.org) (англ.). FundRz. Дата обращения: 18 декабря 2021.

[13] Archive Now (archivenow) (англ.). GitHub. Дата обращения: 20 декабря 2021. Архивировано 20 декабря 2021 года.

[_1708dab986ed533e-14] ¹ ² ³ Eysenbach, 2005.

[wc_license-15] WebCite Legal and Copyright Information (англ.). WebCite Consortium. Дата обращения: 16 июня 2009. Архивировано 25 июля 2008 года.

[16] Matthew Cockerill. Webcite links provide access to archived copy of linked web pages (англ.). BMC (17 сентября 2007). Дата обращения: 21 декабря 2021. Архивировано 31 августа 2021 года.

[17] Alexander Lawrence. Unveiling Hidden Connections with Google Analytics IDs (англ.). Bellingcat (23 июля 2015). Дата обращения: 21 декабря 2021. Архивировано 27 октября 2021 года.

[18] Михаил Горбунов-Посадов. Живая публикация (англ.). OSP. Дата обращения: 26 декабря 2021. Архивировано 13 июня 2019 года.

[19] Leighton Walter Kille. The growing problem of Internet “link rot” and best practices for media and online publishers (англ.). The Journalist's Resource (9 октября 2015). Дата обращения: 21 декабря 2021. Архивировано 10 октября 2021 года.

[20] WebCite takedown requests policy (англ.). WebCite. Дата обращения: 27 декабря 2021. Архивировано 11 декабря 2021 года.

[21] Заблокированный сайт webcitation.org (англ.). Rubanlist.com — список запрещенных сайтов. Дата обращения: 1 января 2022. Архивировано 3 января 2022 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]