Обсуждение:Анализ тональности текста (KQvr';yuny&Gugln[ mkugl,ukvmn mytvmg)

Проект «Информационные технологии» (уровень I, важность для проекта средняя)

Эта статья тематически связана с вики-проектом «Информационные технологии», цель которого — создание и улучшение статей по темам, связанным с информационными технологиями. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении и поработать над требуемыми статьями.

I

Уровень статьи по шкале оценок проекта «Информационные технологии»: полная

Средняя

Важность статьи для проекта «Информационные технологии»: средняя

Эта статья содержит текст, переведённый из статьи Sentiment analysis из раздела Википедии на английском языке.
Список авторов находится на странице истории правок оригинальной статьи. Информация о включении текстов из других источников и их авторах может быть размещена на странице обсуждения оригинальной статьи. Переведено из английской Википедии по состоянию на 23 января 2013.

Словосочетание

В выражении "класс методов контент-анализа" словосочетание "класс методов" вызывает когнитивный диссонанс, ибо в ООП методы принадлежат классам, а не наоборот. Возможно стоит перефразировать.46.38.35.218 12:07, 5 апреля 2013 (UTC)[ответить]

Не стоит перефразировать, так как эта статья — не про объектно-ориентированное программирование, «класс» здесь использован в смысле «категория, совокупность элементов, объединённых некоторым признаком», «метод» — «совокупность приёмов, алгоритмов, способов решения задач», совокупность методов контент-анализа, объединённых целеустановкой проанализировать эмоциональную окраску содержимого и образует «класс методов контент-анализа», составляющих предмет данной статьи. Так что правильнее избавиться от когнитивного диссонанса, чем перефразировать:) bezik 12:19, 5 апреля 2013 (UTC)[ответить]

Рецензирование статьи Анализ тональности текста

Друзья, товарищи и просто проходящие мимо,оставляйте свои замечания и комментарии к статье! — Эта реплика добавлена участником Belousov92 (о • в) 13 декабря 2013 (UTC)

Вместо твердой копии

Сделано Нет ударения в Анализ тональности текста.
СделаноНе хватает перехода в преамбуле.
Исправлено [15][16], [17] и [18] ссылки после точки, а должны быть до.
Исправлено По всему тексту много лишних пробелов или наоборот пробел пропущен.
Исправлено Проверь пунктуацию и наличие опечаток. Они есть.
Исправлено Такие кавычки " " рекомендую заменить на « », также как - на —. Или просто нажать кнопку Викификатор.
Сделано Статья практически невикифицирована. Многие понятия можно викифицировать.
ИсправленоСуществуют 3 основные тональные оценки: позитив, негатив, нейтральная оценка. Мне кажется здесь несогласованность. Либо пишешь позитивная, негативная, нейтральная, либо позитив, негатив, нейтрал (странное слово). Исправил. Belousov
ИсправленоФормулу T=P/N рекомендую оформить с помощью math. Например, так $T=P/N$ .
ИсправленоФормула T=P/N не расшифрована. Что такое P и N?
Сделано Шаблон {{дописать по источникам}} можно уже убрать.
Сделано Раздел Применение пустой. Можно убрать.
Сделано Задание Связывание с тематически близкими статьями не сделал.
Сделано Выставление на рецензирование сделано неполностью. Нужно добавить строку сюда сделать так, чтобы данная страница дублировалась на странице обсуждения.
Статья не отнесена ни к какому проекту. Смотри, как это сделано у меня.

petrinka 07:37, 14 декабря 2013 (UTC)[ответить]

Номера страниц

Александр, вы пишите, что взяли определение из источника номер 1 "Pang, Lee, 2008". Там 94 страницы. Укажите, пожалуйста, конкретный номер страницы. Хочется проверить эту работу за разумное время, не перечитывая тома, которые вы перечитали.

То же замечание и для других публикаций, на которые вы ссылаетесь, у которых есть нумерации (в основном это PDF-ки), проставьте, пожалуйста, номера страниц. -- Andrew Krizhanovsky 15:15, 14 декабря 2013 (UTC)[ответить]

Хорошо, только вопрос - если я ссылался на одну книгу или статью несколько раз, и каждый раз на разные страницы, то стоит указать все эти страницы? И куда вставить эти номера страниц? в раздел Примечания или в раздел Литература? Можно где-нибудь посмотреть образец оформления для этого случая(когда ссылаемся в одной статье на сразу несколько мест)

Посмотреть как ссылаться на отдельные страницы (диапазоны страниц) статьи или книги можно в документации к шаблону {{sfn}}. В итоге будет несколько позиций в разделе "Примечания", но одна публикация в разделе "Литература". Обратите внимание (в описании этого шаблона), что номера страниц в публикации на русском или иностранном языке задаются разными параметрами.

В итоге по "Pang, Lee, 2008" у вас будет пять строчек (вероятно, с разными номерами страниц) в разделе "Примечание". -- Andrew Krizhanovsky 19:30, 15 декабря 2013 (UTC)[ответить]

Преамбула

Возможно я ошибаюсь, но преамбула выглядит немного странно, мне кажется, что всё, что написано после "Эмоциональная оценка состоит из мнений." можно вынести в отдельную главу
И тогда можно шаблон перехода поставить в конце "Эмоциональная оценка состоит из мнений."

Gudach 19:00, 14 декабря 2013 (UTC) Сделано Belousov92 20:13, 17 декабря 2013 (UTC)[ответить]

Раздел: Метод, основанный на графовых моделях

В первом предложении не очень удачно используется "равнозначное значение". М.б. лучше "...что не все слова в текстовом корпусе документа равнозначны."Artyom Kalinin 08:51, 15 декабря 2013 (UTC) Исправлено[ответить]

Раздел: Оценка качества анализа тональности

Плохо сформулирован весь раздел. Не совсем понятно, что конкретно означают метрики точность и отзывчивость в данном случае. Лучше его переделать.Artyom Kalinin 08:51, 15 декабря 2013 (UTC) Исправлено[ответить]

Замечания от Дмитрия Усталова

Я попросил Дмитрия, на работу которого есть ссылка в статье, высказаться по поводу вашей статьи, Александр.

Во-первых, термин "графовые модели" несколько некорректен. Было бы гораздо правильнее перевести термин "graph-based models" как "теоретико-графовые модели".

Во-вторых, действительно, теоретико-графовые модели применяются в задаче определения тональности текста. В статье не перечислены работы, использующие теоретико-графовые модели, примененяющие:

1) обучение с частичным привлечением учителя — http://www.cs.cornell.edu/courses/cs6780/2010fa/projects/yangbishan_cs6780.pdf http://pages.cs.wisc.edu/~jerryzhu/pub/sslsa.pdf

2) "межтемные" (cross-domain) методы: http://aclweb.org/anthology//D/D12/D12-1060.pdf

В-третьих, невероятно приятно видеть работы меня и моих студентов в списке литературы. Увы, я бы очень попросил убрать их из списка — это достаточно вторичные и неинтересные статьи в том плане, что подход к определению тональности не подвергался сколько-либо серьёзной оценке точности-полноты на внятной коллекции документов.

В-четвёртых, это уже моё скромное личное мнение. Википедия — место для научно-популярных и обзорных статей со ссылками на специализированные ресурсы. Если посмотреть там статьи по машинному обучению (aka распознавание образов), то заметная часть статей состоит из ссылок на MachineLearning.ru, где уже приводится описание деталей и нюансов моделей, методов, алгоритмов. Как правило, эти статьи пишут одни и те же люди. Вероятно, было бы правильнее воспользоваться их опытом. Редакция NLPub готова поддержать активность и посодействовать в работе над материалом. Само собой, не только на уровне советов и рекомендаций.

Также наблюдается лёгкая небрежность в оформлении статьи. В списках должны быть точки с запятой, строчные буквы, и так далее. Аналогично с формулами: зачем тег <pre>? Почему у некоторых авторов в библиографии указано полное имя (e.g., Benjamin Snyder), а у кого-то — нет (e.g., Yarowsky, D)?

Большое спасибо Дмитрию за замечания к статье. Уверен, их учёт позволит существенно улучшить статью. -- Andrew Krizhanovsky 23:18, 17 декабря 2013 (UTC) Сделано Добавил ссылки на работы в статью, а также привел список литературы к единому виду Belousov92 11:30, 25 декабря 2013 (UTC)[ответить]

Стиль

Употребление слов "нас" ("мы"), по-моему, не соответствует энциклопедическому стилю изложения. Предлагаю переформулировать текст в разделе "Задачи" -- Andrew Krizhanovsky 14:16, 19 декабря 2013 (UTC) Исправлено Belousov92 10:47, 25 декабря 2013 (UTC)[ответить]

Замечания

"Формальное определение простого мнения выглядит так «простым мнением называется кортеж из пяти элементов..." / Нужно двоеточие после "так"
"от наиболее отрицательного к самому положительному" / предлагаю просто "наименьшего к наибольшему". Наиболее отрицательное и самое положительное звучит как минимум странно
"Каждому понятию даётся оценка на основе способа, которым слова относятся к понятию, а также их оценке." / Не понятен смысл предложения, лучше перефразировать. Оценка на основе оценки?
"... сначала каждому слову в тексте присвоить его значением тональности из словаря..." / "значение"
"Основной проблемой методов, основанных на словарях и правилах считается трудоемкость процесса составления словаря." / Нужна запятая после "правилах"
"Чтобы ускорить процесс составления словарей и правил, данный метод использует с привязкой к конкретной предметной области..." / "используется"
"В наше время наиболее часто используемыми в исследованиях методами являются методы на основе машинного обучения с учителем. Главной его сутью является то, что..." / Несогласованность. В первом предложении множественное число "являются методы", во втором единственное "Главной его сутью"
"вначале собирается коллекция документов на основе которых мы будем обучать наш машинный классификатор" / Нужна запятая после "которых"
"раскладываем каждый документ в виде вектора признаков(аспектов) по которым мы будем его исследовать" / Нужна запятая после "признаков(аспектов)"
"Для классификации слов используется тональный словарь в котором каждому слову присваивается класс " / Нужна запятая после "словарь"
",где T — итоговая оценка тональности, P - оценка положительной составляющей текста и N - негативная составляющая текста." / нужно убрать запятую + дефис заменить на тире
"По статье[17], текст в котором значение T близко к единицу будет считаться нейтральным," / Заменить "единицу" на "единице" + нужны запятые после "текст" и "единице"
"Точность и качество системы анализа тональности текста оценивается в том, насколько хорошо..." / Должно быть "оценивается тем, насколько хорошо"
"Точность - это метрика, которая выражает количество исследуемых текстов..." / Дефис заменить на тире: "Точность — это метрика, которая выражает количество исследуемых текстов..."
"... в оценке которых мнение системы анализа тональности совпало с мнением человека - эксперта." / Дефис заменить на тире: "... в оценке которых мнение системы анализа тональности совпало с мнением человека — эксперта"
"... корреляция будет являться лучшей мерой чем точность, потому что он принимает во внимание..." / Корреляция — она

Tema Timonin 23:45, 22 декабря 2013 (UTC)[ответить]

Артем, благодарю за замечания! Исправлено Belousov92 10:48, 25 декабря 2013 (UTC)[ответить]

Ещё замечания

"Каждому понятию даётся оценка на основе способа, которым слова относятся к понятию, а также их оценке." Мне кажется "которым" не уместно соединить части этого предложения, хотя бы "за счет которого" или "с помощью которого".
"слова относятся к понятию". Мне, кажется, правильнее употребить не "относятся" а "соотносятся"
"Основными метрикой качества анализа тональности текста является точность." Замени на "Основной" Gudach 09:08, 21 декабря 2013 (UTC)[ответить]

Спасибо за замечания, Илья! Исправлено Belousov92 10:48, 25 декабря 2013 (UTC)[ответить]

Номера страниц снова

Замечание по номерам страниц (выше) осталось безответным. -- Andrew Krizhanovsky 13:45, 25 декабря 2013 (UTC)[ответить]

Сегодня, когда я уже добавил большую часть ссылок на страницы(и продолжал вносить), внезапно отключился интернет и в итоге отправка формы не прошла, а википедия к сожалению не сохраняет промежуточные данные. Таким образом это часть работы была безвозвратно утеряна :( Сейчас буду делать все заново. Спасибо за оперативную проверку. Belousov92 18:03, 25 декабря 2013 (UTC)[ответить]

Сделано Belousov92 20:51, 25 декабря 2013 (UTC)[ответить]

Саша, у меня есть желание - проверять вашу работу последовательно, с самого начала. Но в самом начале получается облом. Я смотрю - откуда вы взяли первое и главное определение в преамбуле, а вы ставите ссылку на "Pang, Lee, 2008" - а это 135 страниц. Вы подождёте, пока я прочитаю все 135 страниц или укажите конкретную? -- Andrew Krizhanovsky 21:04, 25 декабря 2013 (UTC)[ответить]

Добавил Belousov92 21:23, 25 декабря 2013 (UTC)[ответить]

Саша, вы указали страницы 5-7. На седьмой - точно нет определения. Скопируйте сюда, пожалуйста, текст на английском, который вы переводили как определение. -- Andrew Krizhanovsky 10:51, 26 декабря 2013 (UTC)[ответить]

Это определение было в статье еще до того как я за нее взялся. В самой ранней ее части. Я попытался найти для него АИ источник, которое являлось бы подтверждением. После прочтения статьи Панга, мне показалось что на основе нее вполне можно вывести данные определение. На странице 5-7 дается объяснение этому термину, например вот эта фраза на странице 6 The history of the phrase sentiment analysis parallels that of “opinion mining” in certain respects. The term “sentiment” used in reference to the automatic analysis of evaluative text and tracking of the predictivejudgments therein appears in 2001 papers by Das and Chen [66] and Tong [297]..

Хотя скорее всего нужно оставить ссылки на АИ для каждой части этого определения, так было бы вернее. Belousov92 11:10, 26 декабря 2013 (UTC)[ответить]

0) Да, нужно указывать ссылки, подтверждающие части определения, либо ещё искать. Иначе задание пока не выполнено - нет определения, подтверждённого АИ. -- Andrew Krizhanovsky 11:13, 26 декабря 2013 (UTC)[ответить]

1) "Мнения делятся на два типа{{sfn|Bing Liu|2010|p=2}}: Простое мнение, Сравнение." Приведите фрагмент на английском, где есть этот текст на второй странице.

Sentiment analysis of comparative sentences: Evaluation of an object can be done in two main ways, direct appraisal and comparison. Direct appraisal, called direct opinion, gives positive or negative opinion about the object without mentioning any other similar objects. Belousov92 13:05, 26 декабря 2013 (UTC)[ответить]

Совсем далеко перевели. Написано:

"Анализ тональности сравнительных предложений: Оценка объекта может выполняться двумя главными способами, а именно:
непосредственная оценка и сравнение. Непосредственная оценка, называемая "непосредственное мнение", содержит положительное или отрицательное мнение об объекте, не упоминая какие-либо другие схожие объекты.

Это надо было умудриться перевести "direct" как "простое". -- Andrew Krizhanovsky 20:45, 26 декабря 2013 (UTC)[ответить]

Мне показалось что так звучит лучше чем прямое мнение. Непосредственное вполне подходит, очень хорошее слово подобрали.

Исправлено Belousov92 21:00, 26 декабря 2013 (UTC)[ответить]

2) "простым мнением называется кортеж из пяти элементов (entity, feature, sentiment value, holder, time), где entity — объект, об аспекте или свойствах (feature) которого автор (holder) высказал свое эмоциональную оценку(sentiment value) в момент времени (time)»{{sfn|Bing Liu|2010|p=3-5}}. В этом документе вовсе отсутствует фраза "sentiment value". Что это значит?

В каком-то источнике вместо ooijkl is the orientation or polarity использовалось sentiment value и я решил заменить. Сейчас я уже не помню, поэтому исправлю Sentiment value на ooijkl is the orientation or polarity. Определение звучит так, цитирую: "Direct opinion: A direct opinion is a quintuple (oj, fjk, ooijkl, hi, tl), where oj is an object, fjk is a feature of the object oj, ooijkl is the orientation or polarity of the opinion on feature fjk of object oj, hi is the opinion holder and tl is the time when the opinion is expressed by hi"

Исправлено Belousov92 13:21, 26 декабря 2013 (UTC)[ответить]

Итого, я проверил ссылки по преамбуле и первому разделу. Прошу ответить на замечания. Когда выполните, сообщите, пожалуйста. Перечитаю эти же разделы и двинемся дальше. -- Andrew Krizhanovsky 11:13, 26 декабря 2013 (UTC) Сделано Belousov92 14:54, 26 декабря 2013 (UTC)[ответить]

Оценка качества анализа тональности и проч.

1) Саша, вы пишите:

Точность — это метрика, которая выражает количество исследуемых текстов, предложений или документов, в оценке которых мнение системы анализа тональности совпало с мнением человека — эксперта.

Это сильное, но неточное определение. Напишите формулу или приведите АИ для подтверждения ваших слов.

А в чем выражается неточность? Само определение я взял из английской версии статьи и немного упростил для понимания на русском языке. В принципе под понятием точность имеется ввиду стандартные метрики из теории информационного поиска - precision и recall. Отдельных статей на русском языке про них нет в русской вики, чтобы сослаться. И вы считаете, что стоит каждую из них подробно описать в этом разделе. Насчет АИ, хорошо, поищу. Belousov92 13:45, 29 декабря 2013 (UTC)[ответить]

"В принципе под понятием точность имеется ввиду стандартные метрики из теории информационного поиска - precision и recall." Да, для "точности из теории информационного поиска" в формуле есть числитель и знаменатель, а то, что вы сейчас пишите - это, скорее всего, числитель. Т.е. это обрывок формулы. Поэтому я и прошу написать формулу, чтобы вы сами поняли, что чего-то не хватает и дописали определение "точности" применительно к SA. -- Andrew Krizhanovsky 18:00, 29 декабря 2013 (UTC)[ответить]

2) Хотелось бы хотя бы коротенько о базах данных, словарях и тезаурусах для работы с SA, а именно: WordNet-Affect, SentiWordNet и SenticNet, которые вы называете. В особенности, это важно, если про них нет статей в ВП. В итоге это будет отдельный раздел (или подраздел), подумайте, как его назвать.

Про wordnet-Affect есть статья на русской вики , на которую я ссылаюсь в тексте, не вижу смысла здесь о ней подробно писать. Теперь про SentiWordNet и SenticNet. Давайте просто я оставлю ссылки на их сайты и научные работы, описывающие их структуру и применение. Кому будет нужно, то сам пройдет и разберется. Все таки это очень специализированные инструменты для исследователей и разработчиков, серьезно изучающих анализ тональности текста. Ведь как говорилось выше Википедия — место для научно-популярных и обзорных статей со ссылками на специализированные ресурсы :) Belousov92 14:05, 29 декабря 2013 (UTC)[ответить]

14:05, 29 декабря 2013 (UTC)

"Про wordnet-Affect есть статья на русской вики..." - это совершенно неверно, про wordnet-Affect нет статьи в рувики. Есть обрубок статьи про WordNet, которую и статьёй назвать нельзя.

wordnet-Affect, SentiWordNet и SenticNet - поставьте ссылки на АИ и коротенько по абзацу дайте описание трёх систем. -- Andrew Krizhanovsky 18:00, 29 декабря 2013 (UTC)[ответить]

Если вы пишите, что это "общедоступные ресурсы", то предоставьте ссылки на их сайты с помощью <ref>.

Сделано 14:44, 29 декабря 2013 (UTC)

3) Остаётся открытым вопрос - есть ли специальные тестовые наборы (предложения + оценки), чтобы автоматически оценить качество работы системы SA?

Пазельская, Соловьёв на стр. 518 пишут, что для русского таких вещей нет, поэтому они оценивали с помощью экспертов на "небольших текстовых подборках. Русский ладно... но для английского то, что-то, наверняка, разработано! Хотелось бы это увидеть в разделе "Оценка качества анализа тональности". -- Andrew Krizhanovsky 09:13, 29 декабря 2013 (UTC)[ответить]

Не могу сказать, что такие есть и для английского языка. Во многих статьях, на которые я ссылаюсь, в качестве источников отзывов используются ресурсы вроде http://www.epinions.com/?sb=1 или сайты, где можно оставлять рецензии на фильмы. Также в более новых статьях в качестве источника отзывов исследуется Twitter или другие социальные сети. Могли бы вы написать английский термин, означающий "тестовые подборки отзывов для изучения тональности", для упрощения поиска. Я смог найти вот такой проект [CyberEmotions], в качестве одной из задач они ставят сбор тестовых данных "Additionally, data gathered from online communities–such as BBC message boards–have been made available to any interested researcher". Подходит ли он? Из текста на сайте я так и не смог выяснить является ли эти данные просто массивом, или это массив уже оцененных данных. Вообще предлагаю оставить этот вопрос следующему редактору, на будущее. Да и судя по информации на сайтах SentiWordNet и SenticNet при скачивании ПО к нему прилагается массив данных, но при этом не написано является ли он оцененным или нет.

Belousov92 13:45, 29 декабря 2013 (UTC)[ответить]

ОК, вопрос остаётся открытым. Если в ходе вашей работы над статьёй я или другой редактор найдёт и укажет вам статью или ресурс с такой информацией, то вы включите их в статью. -- Andrew Krizhanovsky 18:00, 29 декабря 2013 (UTC)[ответить]

Классификация оценок

Вы пишите: "Существуют 3 основные тональные оценки{{sfn|Pang, Lee|2008|p=16-17}}: Позитивная, Негативная, Нейтральная". А на 17 стр. написано "For instance, if we are classifying an author’s evaluation into one of the positive, neutral, and negative classes..." Вы чувствуете разницу между "существует" и "например" (или "предположим")?

Понял свою неточность, исправил на Тональные оценки могут быть:

Исправлено Belousov92 13:09, 26 декабря 2013 (UTC)[ответить]

На стр. 16 в той же публикации в разделе "4.1.1 Sentiment polarity and degrees of positivity" приводится обзор существующих подходов к классификации оценок:

и про континуум между двумя крайними оценками,
и бинарная классификация, которой дали названия "sentiment polarity classification" и "polarity classification".

Эта информация будет хорошим дополнением к той информации, что уже есть сейчас у вас: "Примеры тональных оценок...". -- Andrew Krizhanovsky 09:52, 7 января 2014 (UTC)[ответить]

Хорошо, я внимательно изучу этот раздел и добавлю его краткое описание в свою статью Belousov92 15:34, 7 января 2014 (UTC)[ответить]

Субъективность/объективность

Цитирую: "Как бы то ни было, Панг (Pang, Lee, 2004, стр. 7) показал, что удаление объективных предложений из документа перед классификацией полярности помогло повысить точность результатов."

1) Что такое "объективные предложения"?

Описание субъективности/объективности приводится в разделе субъективность/объективность. Объективные предложения - лишённые предвзятости и субъективного отношения, то есть они выражают какой-то факт.Belousov92 19:27, 18 января 2014 (UTC)[ответить]

2) Не нашёл на седьмой странице в PDF такого утверждения. Приведите текст на английском из этой публикации, который вы так перевели, пожалуйста. -- Andrew Krizhanovsky 17:37, 18 января 2014 (UTC)[ответить]

Это предложение я перевел из английской версии этой статьи и в качестве подтверждения была ссылка на этот источник. Именно такого предложения в оригинальной статье по ссылке нет. Как я понял, этот вывод редактор английской версии делает исходя из всей статьи. Вот предложение, которое почти передает смысл. Utilizing contextual information via this framework can lead to statistically significant improvement in polarity-classification in polarity-classification accuracy. Ранее (на странице 4 встречается вот такое предложение As we will see, the use of subjectivity extracts can in the best case provide satisfying improvement in polarity classication, and otherwise can at least yield polarity-classication accuracies indistinguishable from employing the full review Belousov92 19:27, 18 января 2014 (UTC)[ответить]

Оценка качества анализа тональности

В статье японских учёных Kobayashi и др. используются понятия Aspect-Evaluation, поэтому A-E у них - это обоснованные сокращения. У вас буква "А" в формулах ни к чему не привязна... очевидно, она лишняя.

У вас из описания этого раздела не ясно - откуда берётся знаменатель в формуле точности: "total number of opinions"? Как он вычисляется для корпуса в 230 тысяч текстов про автомобили?

Что это за "класс А"? Какие ещё есть классы? -- Andrew Krizhanovsky 17:59, 18 января 2014 (UTC)[ответить]

Сейчас внимательно прочитал и понял, что в процессе внесения вообще все понятия перепутал и его нужно переделать. Сделаю завтра с утра. Belousov92 19:40, 18 января 2014 (UTC)[ответить]

Исправил последние замечания

Добавил описание WordNwt-affective, SentiNet и т.д
Дополнил раздел оценка качества анализа тональности
добавил описание бинарной шкалы. Belousov92 16:39, 18 января 2014 (UTC)[ответить]

Почему вы убрали ссылки на два источника: diff? "Окрас" звучит юмористически. -- Andrew Krizhanovsky 16:46, 20 января 2014 (UTC)[ответить]

Какой-то общий раздел (подзаголовок) для этих WordNet'ов необходим. А то сейчас они у вас случайно оказались в разделе "Подходы...". А это же не подходы. -- Andrew Krizhanovsky 09:42, 23 января 2014 (UTC)[ответить]

SenticNet

Благодаря своему открытому формату, SenticNet очень легко встраивается в любое реальное приложение для извлечения семантики и sentics из текстов на естественном языке

Что здесь подразумевается под "открытым форматом"?
Выделенные "жирным" слова выдают рекламный стиль, что простительно авторам системы о своём детище, но излишне в энциклопедии.

Согласен, удалил рекламное предложение. Belousov92 12:56, 27 января 2014 (UTC)

Сделано[ответить]

...(стр 3)

Разве так страницы указывают?

Упс, исправил. :) Belousov92 12:56, 27 января 2014 (UTC)

Сделано[ответить]

... на перекрестке между «affect computing» и «common sense computing», который использует ...

слово "который" относится к "перекрёстку"? Как "перекрёсток" может что-то "использовать"?

слово "который" относится к словосочетанию "междисциплинарный подход". Для улучшения читабельности разбил предложение на 2 Belousov92 12:56, 27 января 2014 (UTC)

Исправлено[ответить]

хорошо бы в скобках дать пояснения к этим двум английским словосочетаниям (пояснение - после каждого из них).

привел ссылку на англовики для affect computing и нашел документ, описывающий common sense computing.

СделаноBelousov92 12:56, 27 января 2014 (UTC)[ответить]

обрабатывать мнения и настроения через Интернет

Получается "обрабатывать ... настроения через Интернет". Что значит "настроение через Интернет"? Что ещё бывает "через Интернет"?

Так было написано в научной работе на которую я ссылаюсь, возможно я где-то неправильно перевел. Предложение звучит так: "... better recognize, interpret, and process opinions and sentiments over the Web". я перевел over the Web - через интернет. Скорей всего здесь подразумевается, что обрабатываются текстовые документы из интернета. На всякий случай вообще убрал слово интернет из предложения. Belousov92 12:56, 27 января 2014 (UTC)[ответить]

 Исправлено

 ...математику — для решения таких задач как обработка графов и сокращения многомерности;

Поставьте вики-ссылку, мне интересно, что это за задача такая "сокращения многомерности"? Да ещё множественное число?

я перевел словосочетание multi-dimensionality reduction из оригинала статьи как снижение размерности. На этот раз воспользовался другим словарем. Поставил ссылку на англовики, так как аналога в русской вики не существует. 12:56, 27 января 2014 (UTC)

Исправлено

...и наконец этику — за понимание природы ума...

Это предлог "за" выдаёт одессита, или уже пошёл тост? :)

Улучшил перевод и немного изменил формулировку Belousov92 12:56, 27 января 2014 (UTC)

Исправлено[ответить]

...данные кодируются в RDF-триплеты с использованием синтаксиса XML. Данные представляются в виде concept — has Plesantness — pleasantnessValue, concept — hasPolarity — polarityValue, concept — hasDomain — DomainName, concept — isSemanticallyRelated — concept and concept — hasPrimaryMood -PrimaryMoodName

Без пояснений не ясно, что это за вид такой? Да, ясно - это тройки. Нет, это не XML. Что идёт на втором и третьем месте в тройках? Первым идёт всегда слово "concept"?

Если честно, я сам не понял, из работы автора это непонятно. Сами концепты представляются вот в таком виде: http://sentic.net/api/en/concept/birthday/ . Может просто удалить это предложение и оставить вместо него вот эту ссылку http://sentic.net/api/en/concept/birthday/ ?? То есть будет "...данные кодируются в RDF-триплеты с использованием синтаксиса XML. Пример такой структуры вы можете посмотреть по ссылке[41]" и там уже будет ссылка http://sentic.net/api/en/concept/birthday/

Исправлено Удалил перечисление concept — hasPolarity — polarityValue, concept — hasDomain — DomainName, concept — isSemanticallyRelated — concept and concept — hasPrimaryMood -PrimaryMoodName. Вместо этого привел пример структуры в xml. Теперь на мой взгляд стало понятнее. Belousov92 09:11, 28 января 2014 (UTC)[ответить]

 ...полезно для таких задач как авто-категоризация текстов

Поставьте вики-ссылку на задачу, пожалуйста. В англовики такая статья точно есть.

Поставил

Сделано Belousov92 12:56, 27 января 2014 (UTC)[ответить]

Начиная со слова "Pleasantness" число открывающих скобок не равно числу закрывающих. -- Andrew Krizhanovsky 10:21, 27 января 2014 (UTC)[ответить]

Исправлено Belousov92 12:56, 27 января 2014 (UTC)[ответить]

Ещё актуально

1) В описании публикации Пазельской не указаны: название конференции, место проведения, номера страниц публикации в сборнике.

2) Вторая публикация (Bing Liu) - не указано название книги, не указаны редакторы.

3) Статья Goldberg - вовсе не ясен статус публикации! -- Andrew Krizhanovsky 09:49, 23 января 2014 (UTC)[ответить]

Из формулы вы букву "А" убрали, а текст не поправили в разделе "Оценка качества...". -- Andrew Krizhanovsky 10:05, 23 января 2014 (UTC)[ответить]

Все исправил. Исправлено. Кроме публикации Bing Liu. вы упорядочили по список литерату по алфавиту, так что теперь не понятно какая именно публикация Bing Liu требует редактирования 13:30, 27 января 2014 (UTC)

1) Это не сложно, достаточно посмотреть историю правок и взять версию до сортировки: версия от 25 января 2014, а именно: "Bing Liu Sentiment Analysis and Subjectivity".

Не знаю куда писать редакторов, не нашел место в sfn шаблоне для упоминания редакторов. Можете добавить сами, если знаете куда. Редакторы: N. Indurkhya and F. J. Damerau

Исправлено Belousov92 08:59, 28 января 2014 (UTC)[ответить]

А для кого написана документация: {{книга}}? Там всё есть. Не нужно место работы автора статьи писать в параметр "место публикации", а отдел, где работает учёный - указывать как издательство.

2) А где информация по разделу "5.3 Машинное обучение без учителя". Сейчас там пусто. -- Andrew Krizhanovsky 19:14, 27 января 2014 (UTC)[ответить]

Вернул на место

ИсправленоBelousov92 08:58, 28 января 2014 (UTC)[ответить]

...более высокой областью уместности «События»...

Что значит "область уместности"? Приведите, пожалуйста, отрывок на английском, который вы так перевели? -- Andrew Krizhanovsky 09:23, 28 января 2014 (UTC)[ответить]

high-level domain of pertinence - перевел как "высокой(high-level) областью(domain) уместности(pertinence)" Belousov92 09:56, 28 января 2014 (UTC)[ответить]

ОК. Поправил. -- Andrew Krizhanovsky 10:22, 28 января 2014 (UTC)[ответить]

Машинное обучение без учителя

Александр, вы пишите в статье:

В основе этого подхода лежит идея, что термины, которые чаще встречаются в этом тексте и в то же время присутствуют в небольшом количестве текстов во всей коллекции имеют наибольший вес в тексте. Выделив данные термины, а затем определив их тональность, можно сделать вывод о тональности всего текста{{sfn|Klecovina, Kotelnikov|2012|c=81}}.

Теперь смотрим, что было написано у Клековкиной (кстати, переврали фамилию, не "Klecovina"):

машинное обучение без учителя (unsupervised learning) [16]. Данный подход основан на идее, что наибольший вес в тексте имеют термины, которые чаще встречаются в этом тексте и в то же время присутствуют в небольшом количестве текстов всей коллекции.

Два серьёзных замечания:

1) Откуда брать информацию - конечно, из публикации [16], на которую ссылается Клековкина, а не из Клековкиной, где есть только пара строк об идее (маловато). Кстати, публикация [16] (Turney P. Thumbs up or thumbs down?) - уже есть в вашей статье.

2) Есть такая статья "Обучение без учителя". А есть ваша идея (курсив - выше), которую вы взяли у Клековкиной. Объясните, раскройте, пожалуйста, как эта идея связана с подходом "обучение без учителя" (в рамках анализа тональности текстов). Мне это не ясно. По-моему, Клековкина ошиблась и описала идею TF-IDF, а не "unsupervised learning". -- Andrew Krizhanovsky 09:38, 28 января 2014 (UTC)[ответить]

Мелочи: пунктуация, грамматика, логика повествования

1) предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки мнений авторов по отношению к объектам, речь о которых идёт в тексте

Предлагаю удалить "эмоциональной оценки", оставить просто "мнений авторов по отношению к объектам".

2) Эмоциональная оценка состоит из мнений.

Предлагаю удалить, выглядит нелогично в своем абзаце.

3) Какие именно свойства будут исследоваться, зависит уже от поставленной задачи.

Добавляю запятую.

4) где entity — объект, об аспекте или свойствах (feature) которого автор (holder) высказал свое эмоциональную оценку(orientation or polarity) в момент времени (time)

Предлагаю заменить "высказал свое эмоциональную оценку" на "высказал свое мнение" - в соответствии с правилами грамматики и стиля ("высказать оценку" - звучит не очень). Не хватает пробела перед скобкой.

JuliaMor 06:57, 16 апреля 2014 (UTC)[ответить]

Что можно добавить в статью

Использование нейронных сетей для определения тональности текста. http://habrahabr.ru/post/197890/ Belousov92 12:55, 1 февраля 2014 (UTC)[ответить]

Добавить подробное описание методов машинного обучения без учителя, которые можно применять для определения тональности текста. Belousov92 12:55, 1 февраля 2014 (UTC)[ответить]

Методы и средства оценки

Ещё (к указанному выше Белоусовым) не хватает раздела с описанием доступных дорожек и систем для проверки точности и полноты работы алгоритмов АТТ для текстов на русском и английском языках. Для примера можно посмотреть раздел Evaluation в задаче "Разрешение лексической многозначности".

При этом хотелось бы более детального описания дорожек с формулировкой постановки задачи.

+ Результаты дорожек на сегодня, т.е. какие алгоритмы показали себя лучше других на каких дорожках, в процентах. -- Andrew Krizhanovsky 04:31, 29 мая 2014 (UTC)[ответить]

Publicly Available Russian Sentiment Lexicons, 2018

Обзор доступных русских словарей с разметкой тональности в статье:

Kotelnikov, E., Peskisheva, T., Kotelnikova, A., & Razova, E. (2018, October). A Comparative Study of Publicly Available Russian Sentiment Lexicons. In Conference on Artificial Intelligence and Natural Language (pp. 139-151). Springer, Cham. --Andrew Krizhanovsky (обс.) 11:23, 18 декабря 2018 (UTC)[ответить]