Web mining (Web mining)
Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете[1].
В Web Mining можно выделить следующие этапы:
- входной этап (англ. input stage) — получение «сырых» данных из источников (логи серверов, тексты электронных документов);
- этап предобработки (англ. preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели;
- этап моделирования (англ. pattern discovery stage);
- этап анализа модели (англ. pattern analysis stage) — интерпретация полученных результатов.
Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining:
- Web Content Mining;
- Web Structure Mining;
- Web Usage Mining.
Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете[2]. Поиск знаний в сети Интернет является непростой и трудоёмкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных.
Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете[3]. Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.
Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретёнными в результате взаимодействия с одним или несколькими веб-сайтами[4]. Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.
Web Mining
[править | править код]Web Mining и информационный поиск
[править | править код]Некоторые утверждают, что информационный поиск в Интернете — это частный случай Web Mining, другие ассоциируют Web Mining с интеллектуальным информационным поиском. На самом деле информационный поиск — это автоматический поиск всех необходимых документов, однако, в то же время не исключено получение некоторых нерелевантных документов[5]. Основные задачи информационного поиска заключаются в поиске полезных документов, полнотекстовом индексировании, и в настоящее время исследования в области информационного поиска включают в себя моделирование, классификацию и категоризацию документов, пользовательских интерфейсов, визуализацию данных, фильтрацию, и т. д..Задача, которую, как считается, выполняет частный случай Web Mining — это классификация или категоризация веб-документов, которые могут быть использованы для индексации. В этой связи, Web Mining является частью процесса информационного поиска. Тем не менее, следует отметить, что не все задачи индексации используют методы интеллектуального анализа данных.
Web Mining и извлечение информации
[править | править код]Целью информационного извлечения является превращение коллекции документов, обычно с помощью информационно-поисковых систем, в легко усвояемую и проанализированную информацию. Процесс извлечения информации направлен на вынимание релевантных фактов из документов, в то время как процесс информационного поиска направлен на селекцию релевантных документов. Первый заинтересован в структуре или представлении документа, то есть работает на уровне тонкой детализации, а второй рассматривает текст документа как коллекцию неупорядоченных слов. Тем не менее, различия между двумя процессами становятся несущественными, если цель информационного поиска — это извлечение информации[6].
Благодаря динамике и разнообразию веб-содержимого, создание ручного режима систем информационного извлечения не представляется возможным. В связи с этим, большинство систем по извлечению данных сосредотачивают внимание на конкретные веб-сайты. Другие используют обучающие машины или методы интеллектуального анализа данных и способны извлекать веб-документы в автоматическом или полуавтоматическом режиме. С этой точки зрения, Web Mining является частью процесса извлечения информации из Интернета.
Web Mining и машинное обучение
[править | править код]Web Mining работает не по тому же принципу, что и применяющиеся в Интернете методы машинного обучения. С одной стороны, существуют некоторые приложения машинного обучения, не являющиеся частным случаем Web Mining. Примером этого является метод, эффективно использующий веб-паука для конкретной темы, или метод, акцентирующийся на планировании лучшего пути, который будет пройден следующим. С другой стороны, помимо методов машинного обучения, существуют и другие методы, которые применимы к Web Mining. К примеру — некоторые запатентованные алгоритмы, которые используются для добычи хабов и авторитетных страниц, DataGuides и алгоритмы обнаружения веб-схем. Тем не менее, между двумя областями исследований существует тесная связь, и методы машинного обучения могут быть применены к процессам Web Mining. Например, недавние исследования показали, что применение методов машинного обучения может улучшить процесс классификации текстов, по сравнению с результатами работы традиционных методов информационного поиска[7] .
Web Content Mining
[править | править код]Web Content Mining описывает автоматический поиск информационных ресурсов в Интернете и включает в себя добычу содержимого из веб-данных. По сути, Web Content Mining является аналогом метода интеллектуального анализа данных для реляционных баз данных, так как существует возможность найти похожие типы знаний из неструктурированных данных, находящихся в веб-документах. Веб-документ может содержать несколько типов данных, такие как текст, изображения, аудио, видео, метаданные и гиперссылки. Некоторые из них частично структурированные, такие как HTML-документы, некоторые более структурированные, такие как данные в таблицах или базах данных, но большинство информации хранится в неструктурированных текстовых данных[8].
Существуют различные методы поиска информации в Интернете. Наиболее распространённым подходом является поиск на основе ключевых слов. Традиционные поисковые системы имеют сканеры для поиска и сбора полезной информации в Интернете, методы индексирования для хранения информации и обработки запросов, чтобы предложить пользователям более точную информацию. Web Content Mining выходит за рамки традиционной технологии IR (англ. Information Retrieval).
Существует два подхода к Web Content Mining: агентный и ориентированный на базу данных. В первом случае, добычу данных осуществляют программные агенты, во втором случае данные рассматриваются как принадлежащие к базе[9].
Подход, основанный на агентах, включает такие системы[10]:
- интеллектуальные поисковые агенты (Intelligent Search Agents);
- фильтрация информации / классификация;
- персонифицированные агенты сети.
Примеры систем интеллектуальных агентов поиска:
- Harvest (Brown и др., 1994),
- FAQ-Finder (Hammond и др., 1995),
- Information Manifold (Kirk и др., 1995),
- OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
- ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
- ShopBot (Doorenbos и др., 1996).
Подход, основанный на базах данных, включает системы[10]:
- многоуровневые базы данных;
- системы web-запросов (Web Query Systems);
Примеры систем web-запросов:
- W3QL (Konopnicki и Shmueli, 1995),
- WebLog (Lakshmanan и др., 1996),
- Lorel (Quass и др., 1995),
- UnQL (Buneman и др., 1995 and 1996),
- TSIMMIS (Chawathe и др.., 1994).
Web Structure Mining
[править | править код]Web Structure Mining — это процесс выявления структурной информации в Интернете, который может быть разделён на два вида, основанных на типе структуры используемой информации[3]:
- Гиперссылки
- Структура документа
Гиперссылки
[править | править код]Гиперссылка является структурной единицей, которая соединяет локацию в веб-странице с другой, или в пределах одной веб-страницы или на другой веб-странице. Гиперссылка, которая подключается к другой части той же страницы называется внутри-документной гиперссылкой, а гиперссылка, которая соединяет две разных страницы называется меж-документной гиперссылкой.
Структура документа
[править | править код]Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача состоит в том, чтобы автоматически извлечь DOM-структуру(англ. document object model) из документов.
Web Structure Mining пытается обнаружить модель, лежащую в основе ссылочной структуры в Интернете. Модель основана на топологии гиперссылки с или без описания ссылки. Эта модель может быть использована для классификации Веб-страницы и полезна для получения информации, такие как сходство и отношения между веб-сайтами[11]. Ссылочная структура содержит важную информацию, и может помочь в фильтрации и ранжировании веб-страниц. В частности, ссылка со страницы А на страницу В может считаться рекомендацией страницы B автором А.
Были предложены некоторые новые алгоритмы, использующие ссылочную структуру не только для поиска по ключевым словам, но и других задач, таких как автоматическое создание Yahoo-подобных иерархий или идентификаций сообществ в Интернете. Качественное выполнение этих алгоритмов, как правило, лучше, чем исполнение IR-алгоритмов, поскольку они используют больше информации, чем просто содержимое страниц.
Web Usage Mining
[править | править код]Web Usage Mining — это процесс извлечения полезной информации из пользовательских журналов доступа, журналов прокси-сервера, браузерных журналов, пользовательских сессионных данных. Говоря простым языком, Web Usage Mining — это процесс выяснения того, что пользователи ищут в Интернете. Некоторые пользователи могут быть заинтересованы только в текстовых данных, в то время как другие могут больше уделять внимания мультимедийным данным[12].
Анализируется следующая информация:
- какие страницы просматривал пользователь;
- какова последовательность просмотра страниц.
Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.
Web Usage Mining включает следующие составляющие:
- предварительная обработка;
- операционная идентификация;
- инструменты обнаружения шаблонов;
- инструменты анализа шаблонов.
На первом этапе происходит сбор данных и предварительная обработка данных. Предварительная стадия обработки включает в себя очистку clickstream-данных (англ. Clickstream — маршрут перемещения пользователя по веб-узлу) и разбиение данных на множество пользовательских транзакций с их визитами на веб-сайт. На стадии обнаружения шаблона, статистические алгоритмы и алгоритмы баз данных выполняются на журналы транзакций, чтобы найти скрытые закономерности и поведение пользователей. На заключительном этапе анализа шаблонов, обнаруженные образцы из предыдущего этапа последовательно обрабатываются и фильтруют произведённые модели, которые впоследствии могут использоваться как входные данные в различные инструменты визуализации и инструменты генерации отчётов[12].
Статистика фиксирует идентификационные данные веб-пользователей вместе с их поведением на сайте. В зависимости от вида использования данных, результатом работы Web Usage Mining будут являться:
- Данные веб-сервера;
- Данные серверных приложений;
- Данные прикладного уровня.
Данные веб-сервера
[править | править код]Веб-сервером собираются журналы пользователя и обычно включают в себя IP-адрес, ссылку на страницу и время доступа.
Данные серверных приложений
[править | править код]Коммерческие серверы приложений, такие как WebLogic, StoryServer, имеют значительные возможности, позволяющие обосноваться на их вершине приложениям для электронной коммерции. Ключевой особенностью является возможность отслеживать различные виды деловых мероприятий и регистрировать их в журналах сервера приложений.
Данные прикладного уровня
[править | править код]В приложении могут быть определены новые виды событий, регистрация которых, может включать историю создания этих событий. Следует отметить, что многие конечные приложения требуют сочетания одного или нескольких методов, применяемые в категориях, указанных выше.
Плюсы и минусы Web Usage Mining
[править | править код]Плюсы
[править | править код]Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений[13]:
- Эта технология позволила электронной торговле создать персонализированный маркетинг, который в конечном итоге привёл к увеличению объёмов торговли.
- Государственные учреждения используют эту технологию для классификации угроз и для борьбы с терроризмом.
- Возможность прогнозирования может принести пользу обществу путём выявления преступной деятельности.
- Компании могут установить более тесные взаимоотношениями с клиентами, предоставляя им именно то, что им нужно.
- Компании могут лучше понять потребности клиента и быстрее реагировать на потребности клиентов.
- Компании могут найти, привлечь и удержать клиентов, сэкономить на себестоимости продукции за счёт использования приобретённого понимания требований заказчика.
- Компании повышают рентабельность за счёт целевого ценообразования на основе созданных профилей.
Минусы
[править | править код]- Самый критикуемый этический вопрос, связанный с Web Usage Mining, является вопрос о вторжении в частную жизнь. Защита считается потерянной, когда полученная информация об отдельном пользователе используется или распространяется без их ведома и согласия. Полученные данные будут проанализированы и кластеризованы в форме профилей или будут анонимными до кластеризации без создания личных профилей. Таким образом, эти приложения де-индивидуализируют пользователя, судя о них только по их щелчками мыши[14].
- Другой важной проблемой является то, что компании по сбору данных могут их использовать для совершенно разных целей, что существенно нарушает интересы пользователей.
- Растущая тенденция использования персональных данных в качестве товара призывает владельцев веб-сайтов к торговле этими данными, расположенными на их сайтах.
- Некоторые алгоритмы интеллектуального анализа могут использовать спорные атрибуты, такие как пол, раса, религия или сексуальная ориентация. Эти методы могут быть против анти-дискриминационного законодательства.
См. также
[править | править код]Примечания
[править | править код]- ↑ Web Mining: Machine learning for Web Applications, 2004, с. 290.
- ↑ Web Mining Functions, 2009, с. 132.
- ↑ 1 2 Web Mining — Concepts, Applications, and Research Directions, 2004, с. 3.
- ↑ Web Usage Mining Description, 2011, с. 527.
- ↑ A Survey of Web Mining, 2000, с. 2.
- ↑ A Survey of Web Mining, 2000, с. 2-3.
- ↑ A Survey of Web Mining, 2000, с. 3.
- ↑ Web Content, 2000, с. 5.
- ↑ Web Content Methods, 2008, с. 263.
- ↑ 1 2 Agent-based and Database oriented approaches, 2006.
- ↑ Web Structure Mining, 2007, с. 3.
- ↑ 1 2 Web Usage Mining, 2008, с. 7.
- ↑ Web Usage mining Pros and Cons
- ↑ Ethical issues, 2004.
Литература
[править | править код]- Wang Y. Web Mining and Knowledge Discovery of Usage Patterns (англ.). — 2000. (недоступная ссылка)
- Lingras P., Akerkar R. Building an Intelligent Web: Theory and Practice: Theory and Practice (англ.). — Jones and Bartlett Publishers, 2008. — 326 p. — ISBN 978-0-7637-4137-2.
- Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (англ.). — Springer, 2011. — 642 p. — ISBN 978-3642194597.
- Wookie L. Hierarchical Web Structure Mining (англ.). — 2007.
- Kosala R., Blockeel H. Web Mining Research: A Survey (англ.). — ACM SIGKDD, 2000. — P. 2-3.
- Cronin B. Annual Review of Information Science and Technology (англ.). — ARIST, 2004. — 674 p. — ISBN 1573872091.
- Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7.
- Sivaramakrishnan J., Balakrishnan V. Web Mining Functions in an Academic Search Application. — Dubai: BITS – PILANI, 2009. — С. 132-139.
- Sharma A. Web Usage Mining: Data Preprocessing, Pattern Discovery and Pattern Analysis on the RIT Web Data (англ.). — Rochester Institute of Technology, 2008. Архивировано 23 января 2013 года.
- Srivastava J., Desikan P., Kumar V. Web Mining — Concepts, Applications, and Research Directions (англ.). — 2004.
- Royakkers L, v.Wel L. Ethical issues in web data mining (англ.). — Kluwer Academic Publishers, 2004.