Open Content Alliance (Open Content Alliance)

Open Content Alliance
Open Content Alliance
URL	archive.org/details/open…
Коммерческий	да
Тип сайта	онлайн-библиотека
Язык (-и)	многоязычный
Владелец	Архив Интернета, Yahoo!
Начало работы	2005

Open Content Alliance (OCA) — консорциум коммерческих и некоммерческих организаций, занимающийся оцифровкой печатных изданий для свободного распространения в интернете. Создан в октябре 2005 года в качестве альтернативы проекту Google Books. Главными партнёрами-сооснователями стали Архива Интернета, Yahoo, библиотеки Университета Торонто и Калифорнийского университета, а также Национальные архивы Великобритании^[англ.]. Спустя несколько недель к проекту присоединился Microsoft, Research Libraries Group^[англ.], Biodiversity Heritage Library, Библиотеки и архивы Смитсоновского института^[англ.]. К 2008 году в OCA входило около 80 организаций. К 2010 году работа OCA окончательно остановилась из-за выхода из консорциума Microsoft и Yahoo. На 2023 год OCA больше не занимается оцифровкой материалов.

В рамках проекта библиотеки предоставляли OCA свои коллекции для оцифровки, в то время как корпоративные спонсоры и Архив Интернета занимались техническими и финансовыми вопросами. В отличие от Google Books, OCA сканировал только те работы, на которые было получено разрешение владельцев авторских прав, или которые уже находились в общественном достоянии. В рамках OCA было оцифровано более 3 млн печатных изданий из коллекций партнёрских библиотек, из которых около 300 тысяч были опубликованы на сайте Open Library.

История

Open Content Alliance (OCA) был создан в 2005 году в качестве альтернативы Google Print (сейчас — Google Books) — крупнейшему проекту по массовой оцифровке печатных изданий^[1]. Инициатором создания консорциума был основатель Архива Интернета Брюстер Кейл. Интернет-активист открыто высказывал опасения, что проект от Google противоречит принципам открытой науки. Более того, решение компании публиковать все материалы исключительно на портале Google Books может привести к монополизации научного знания. Поэтому Кейл решил создать альтернативный консорциум коммерческих и некоммерческих организаций, выступающих за открытое распространение оцифрованных работ. В отличие от Google, OCA занимался оцифровкой только тех материалов, на которые было получено разрешение владельцев авторских прав. При этом все книги были бы доступны для просмотра и скачивания для всех пользователей через портал Архива Интернета^[2].

Cо-основателями OCA также были Yahoo!, библиотеки Университета Торонто и Калифорнийского университета, а также Национальные архивы Великобритании^[англ.]. Спустя несколько недель к проекту присоединились Microsoft, Research Libraries Group^[англ.], Biodiversity Heritage Library, Библиотеки и архивы Смитсоновского института^[англ.], Колумбийский университет, Университет Эмори, Университет Джонса Хопкинса, Макмастерский университет, Университет Райса, Йоркский университет, Университет Британской Колумбии, Оттавский университет, Питтсбургский университет^[1]^[2]^[3]^[4]^[5]. В 2007 году в консорциум вступили библиотеки Иллинойского университета^[6]^[7]. К 2008 году более 80 организаций, включая крупнейшие библиотеки, научно-исследовательские учреждения и коммерческие организации, стали частью OCA^[6].

За три года работы OCA отсканировал более 3 млн книг из коллекций партнёрских организаций. Однако в 2008 году один из крупнейших спонсоров проекта Microsoft принял решение покинуть консорциум. Компания заявила, что намеревается изменить стратегию интеграции печатных материалов в свои алгоритмы поиска и запустит поисковых роботов, чтобы «захватывать» уже собранную информацию из других репозиториев^[8]. При этом Microsoft сняла все контрактные ограничения на уже оцифрованный контент и передала оборудование партнёрским организациям консорциума^[9]. Спустя несколько лет проект покинула Yahoo!, заявив о нежизнеспособности подобной бизнес-модели^[10]. Точная дата прекращения работы OCA неизвестна^[11], однако на 2023 год партнёрские организации больше не занимаются оцифровкой.

Принцип работы

OCA оцифровывал только работы, которые относились к общественному достоянию или для которых было получено разрешение на копирование от правообладателей^[9]. В 2005 году Кейл объявил о планах OCA оцифровать 80 % книг, изданных между 1923 и 1964 годами, а также расширить эту коллекцию, включив произведения с недоступным правообладателем^[5]^[12]. В течение нескольких лет консорциум планировал выложить в открытый доступ сотни тысяч книг. Все оцифрованные работы планировалось хранить на серверах Архива Интернета^[2].

Участники консорциума были ответственны за различные аспекты проекта. Так, Hewlett Packard Enterprise и Adobe предоставили оборудование для оцифровки, Архив Интернета отвечал за организационный процесс. Yahoo! индексировала содержание и финансировала оцифровку первоначального корпуса американской литературы из коллекции Калифорнийского университета. Общий вклад Yahoo! оценивался в сумму от $300 000 до $500 000 за первый год. Хотя проект не приносил компании прямой выгоды, индексация полученного контента существенно улучшила поисковую систему Yahoo!^[3]. Библиотеки Калифорнийского университета вложили $500 000 за оцифровку 5000 томов художественной литературы^[3]^[2]. Национальные архивы Великобритании предоставляли коллекцию фильмов и других медиаматериалов^[5]^[1]. Research Libraries Group планировала предоставить библиографическое описание для всех оцифрованных работ^[5]. Microsoft сделала наибольший вклад в развитие проекта, вложив около $5 млн для оцифровки более 150 000 книг. Однако компания имела свои коммерческие интересы в проекте — оцифрованные работы планировалось выкладывать на специализированный книжный портал MSN. Microsoft планировала открыть бесплатный доступ к работам, не защищённым авторским правом, и взимать плату за доступ к защищенным материалам.^[4]^[13]^[8].

Оплачивали оцифровку коллекций сами библиотеки, однако на практике многие из них получили гранты от таких организаций, как Фонд Альфреда Слоуна^[6]^[14]. Также в начале проекта большую часть затрат по оцифровке оплатила Microsoft, компанию особенно интересовала американская литература и она самостоятельно выбирала тематический охват для оцифровки из доступных коллекций партнёрских библиотек. Библиотеки, которые самостоятельно платили за собственное сканирование с помощью OCA, выбирали материалы для оцифровки по своему усмотрению^[15]. Например, библиотеки Бостонского университета выделили $845 000 долларов на оцифровку своей коллекции^[6].

Оцифровка

Оцифрованные материалы доступны через портал Open Library Архива Интернета. Поисковые системы, включая Google, могут свободно направлять пользователей к материалам^[6]. Процесс оцифровки работал аналогично системе Google Books: каждая библиотека согласовывала список произведений с OCA, после чего консорциум предоставлял оборудование и персонал для сканирования. После этого сотрудники библиотеки доставляли материалы в местное отделение OCA, где происходил процесс оцифровки. Персоналу, не относящемуся к OCA, не разрешалось пользоваться оборудованием, но, в отличие от Google, консорциум пускал людей на объекты сканирования^[12].

Оцифровка каждой книги обходилась консорциуму примерно в $30^[6]. OCA разработал специальную систему оптического распознавания символов под названием Scribe. Устройство имело схожую конструкцию с линейкой Kirtas Technology APT BookScan и использовала цифровые камеры Canon EOS-1Ds Mark II. Как и в проекте Google Books, для переворачивания страниц были наняты операторы. Они также нажимали на специальную педаль, автоматически опускающую V-образную стеклянную пластину на книгу для сглаживания страниц. Качество каждой отсканированной работы проверялось отдельно и при необходимости оцифровка проводилась повторно. В среднем оператор Scribe оцифровывал 350 страниц в час или одну страницу в 10 секунд^[12]. Полученные изображения в формате JPEG загружали на локальный компьютер и передавали на основные сервера OCA для дальнейшей обработки^[12].

Доступ к материалам OCA осуществлялся через портал OCA и сайт Архива Интернета. Однако политика использования материалов и доступ к тем или иным работам зависят от параметров и устанавливаются содействующими учреждениями. Например, коллекция американской литературы Калифорнийского университета не имеет ограничений и может быть загружена и повторно использована для любых целей^[5]^[3]^[1]^[16].

Критика

Проект консорциума по масштабной оцифровке печатных изданий уступает по известности лишь Google Books. Благодаря заявленным принципам прозрачности и публичной приверженности идеалам открытой науки многие активисты и библиотекари рассматривали работу OCA как «окончательную ступень в демократизации мирового знания»^[12]. Основатели проекта рассчитывали собрать крупную сеть университетских библиотек, многие из которых не заключали контракт с Google Books из-за опасений работы с коммерческим гигантом^[8].

Однако многие библиотечные системы и некоммерческие организации начали критиковать консорциум, говоря о том, что по своей сути организация не отличается от Google Books, а вовлечённый в процесс Microsoft имеет такие же коммерческие интересы, как и Google^[8]. Отдельные исследования показали, что несмотря на заявленную прозрачность, OCA являлся достаточно закрытой организацией в плане подхода к оцифровке данных^[12]. Так, консорциум опубликовал даже меньше технической информации о своей работе, чем Google Print. Техническая документация Scribe была недоступна для широкого круга, хотя сама программа была выпущена с открытым исходным кодом^[12].

В результате проект не достиг масштабов и популярности Google Books. Считается, что одной из главных причин неудачи проекта — общее нежелание библиотек доверять коллекции частным корпорациям^[8].

Примечания

↑ ¹ ² ³ ⁴ The Open Content Alliance (неопр.). SPARC Open Access Newsletter. Дата обращения: 3 июня 2023.
↑ ¹ ² ³ ⁴ Schonfeld, 2021, p. 46.
↑ ¹ ² ³ ⁴ Katie Hafner. In Challenge to Google, Yahoo Will Scan Books (неопр.). New York Times (3 октября 2005). Дата обращения: 1 июня 2023. Архивировано 1 сентября 2021 года.
↑ ¹ ² Katie Hafner. Microsoft to Offer Online Book-Content Searches (неопр.). The New York Times (26 октября 2005). Дата обращения: 4 июня 2023. Архивировано 1 сентября 2021 года.
↑ ¹ ² ³ ⁴ ⁵ Klara Maidenberg. The Race to Create a Digital Library: Google Books vs. the Open Content Alliance (неопр.). Essays on the Design of Electronic Text. Дата обращения: 3 июня 2023.
↑ ¹ ² ³ ⁴ ⁵ ⁶ Katie Hafner. Libraries Shun Deals to Place Books on Web (неопр.). New York Times (22 октября 2007). Дата обращения: 3 июня 2023. Архивировано 8 апреля 2023 года.
↑ U. of I. joins group creating digital book archive accessible to public (неопр.). Illinois News Bureau (20 февраля 2007). Дата обращения: 3 июня 2023. Архивировано 25 января 2022 года.
↑ ¹ ² ³ ⁴ ⁵ Schonfeld, 2021, p. 120—121.
↑ ¹ ² Microsoft to shut down book scanning operations (неопр.). CTV News (23 мая 2008). Дата обращения: 3 июня 2023.
↑ Mass Digitization of Books: Exit Microsoft, What Next? (неопр.) Dan Cohen. Дата обращения: 3 июня 2023. Архивировано 30 июня 2022 года.
↑ Yeo, 2020.
↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Mass book digitization: The deeper story of Google Books and the Open Content Alliance (неопр.). First Monday. Дата обращения: 3 июня 2023. Архивировано 20 октября 2022 года.
↑ Gary Price. Microsoft Announces MSN Book Search; Joins Open Content Alliance (неопр.). Search Engine Watch (25 октября 2005). Дата обращения: 3 июня 2023.
↑ Open Content Alliance (неопр.). Internet Archive. Дата обращения: 3 июня 2023.
↑ Dougan, 2010.
↑ Global Consortium Forms Open Content Alliance to Bring Additional Content Online and Make it Searchable (неопр.). Altaba (3 октября 2005). Дата обращения: 3 июня 2023.

Литература

Kirstin Dougan. Music to our Eyes: Google Books, Google Scholar, and the Open Content Alliance // Libraries and the Academy. — 2010. — Т. 10, вып. 1. — С. 75—93. — doi:10.1353/pla.0.0088.
Shinjoung Yeo. Access now, but for whom and at what cost? // Information, Communication, Society. — 2020. — Т. 23, вып. 4.
Deanna Marcum, Roger!C. Schonfeld. Along Came Google. A History of Library Digitization. — Princeton University Press, 2021.

[SPARC-1] ¹ ² ³ ⁴ The Open Content Alliance (неопр.). SPARC Open Access Newsletter. Дата обращения: 3 июня 2023.

[_00689534983d4d6a-2] ¹ ² ³ ⁴ Schonfeld, 2021, p. 46.

[Hafner-3] ¹ ² ³ ⁴ Katie Hafner. In Challenge to Google, Yahoo Will Scan Books (неопр.). New York Times (3 октября 2005). Дата обращения: 1 июня 2023. Архивировано 1 сентября 2021 года.

[NYT-4] ¹ ² Katie Hafner. Microsoft to Offer Online Book-Content Searches (неопр.). The New York Times (26 октября 2005). Дата обращения: 4 июня 2023. Архивировано 1 сентября 2021 года.

[Maidenberg-5] ¹ ² ³ ⁴ ⁵ Klara Maidenberg. The Race to Create a Digital Library: Google Books vs. the Open Content Alliance (неопр.). Essays on the Design of Electronic Text. Дата обращения: 3 июня 2023.

[NYT1-6] ¹ ² ³ ⁴ ⁵ ⁶ Katie Hafner. Libraries Shun Deals to Place Books on Web (неопр.). New York Times (22 октября 2007). Дата обращения: 3 июня 2023. Архивировано 8 апреля 2023 года.

[NI-7] U. of I. joins group creating digital book archive accessible to public (неопр.). Illinois News Bureau (20 февраля 2007). Дата обращения: 3 июня 2023. Архивировано 25 января 2022 года.

[_fcf6da549b52d4cb-8] ¹ ² ³ ⁴ ⁵ Schonfeld, 2021, p. 120—121.

[CTV-9] ¹ ² Microsoft to shut down book scanning operations (неопр.). CTV News (23 мая 2008). Дата обращения: 3 июня 2023.

[10] Mass Digitization of Books: Exit Microsoft, What Next? (неопр.) Dan Cohen. Дата обращения: 3 июня 2023. Архивировано 30 июня 2022 года.

[_3e8e998647dd5fcc-11] Yeo, 2020.

[Leetaru-12] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ Mass book digitization: The deeper story of Google Books and the Open Content Alliance (неопр.). First Monday. Дата обращения: 3 июня 2023. Архивировано 20 октября 2022 года.

[13] Gary Price. Microsoft Announces MSN Book Search; Joins Open Content Alliance (неопр.). Search Engine Watch (25 октября 2005). Дата обращения: 3 июня 2023.

[14] Open Content Alliance (неопр.). Internet Archive. Дата обращения: 3 июня 2023.

[_c9beee4a480d070e-15] Dougan, 2010.

[16] Global Consortium Forms Open Content Alliance to Bring Additional Content Online and Make it Searchable (неопр.). Altaba (3 октября 2005). Дата обращения: 3 июня 2023.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]