Признак (машинное обучение) (Hjn[ugt (bgonuuky kQrcyuny))
Признак в машинном обучении — индивидуальное измеримое свойство или характеристика наблюдаемого явления[1]. Выбор информативных, отличительных и независимых признаков является критическим шагом для эффективных алгоритмов в распознавании образов, классификации и регрессии. Признаки обычно являются числовыми, но структурные признаки, такие как строки и графы, используются в синтаксическом распознавании образов[англ.]. Понятие «признака» связано с объясняющими переменными, используемыми в статистических техниках, таких как линейная регрессия.
Классификация
[править | править код]Множество числовых признаков удобно описать вектором признаков. Пример достижения классификации по двум признакам из вектора признаков (связанных с перцептроном) состоит из вычисления скалярного произведения вектора признаков и вектора весов, сравнения результата с пороговым значением и решения, к какому классу принадлежит объект на основе этого сравнения.
Алгоритмы классификации, опирающиеся на вектора признаков, включают классификацию ближайших соседей, нейронные сети и статистические техники, такие как байесовский подход.
Примеры
[править | править код]В распознавании знаков признаки могут включать гистограммы, включающие число чёрных точек вдоль горизонтальных и вертикальных направлений, число внутренних пустот, выделение штрихов и многие другие.
В распознавании речи признаки для распознавания фонем могут включать коэффициент шума, длину звуков, относительную громкость, соответствие фильтрам и многое другое.
В алгоритмах выделения спама признаки могут включать присутствие или отсутствие некоторых заголовков email, структуру email, язык, частоту определённых терминов, грамматическую правильность текста.
В компьютерном зрении существует большое число возможных признаков[англ.], таких как рёбра и объекты.
Расширения
[править | править код]В распознавании образов и машинном обучении вектор признаков является n-мерным вектором числовых признаков, который представляет некоторый объект. Многие алгоритмы в машинном обучении требуют численное представление объектов, поскольку такие представления способствуют обработке и статистическому анализу. При работе с изображениями признак может соответствовать растровым точкам (пикселям) изображения, в то время как признаки для текста могут соответствовать частоте использования терминов в тексте. Вектора признаков эквивалентны векторам объясняющих переменных, используемых в статистических процедурах, таких как линейная регрессия. Вектора признаков часто комбинируются с весами, используя скалярное произведение для построения функции линейного предиктора[англ.], которая используется для определения оценки для предсказания.
Векторное пространство, ассоциированное с этими векторами, часто называется пространством признаков. Для сокращения размерности пространства признаков может быть использовано несколько методов снижения размерности.
Признаки более высокого уровня можно получить из уже известных признаков и они могут быть добавлены к вектору признаков. Например, для изучения болезней полезен признак «возраст», который можно определить как возраст = «год смерти» минус «год рождения». Об этом процессе говорят как о построении признака[2][3]. Построение признака — это приложение множества операторов построения к множеству существующих признаков, приводящее к построению новых признаков. Примеры таких операторов построения включают проверку на равенство {=, ≠}, арифметические операторы {+,−,×, /}, операторы для массивов {max(S), min(S), average(S)}, а также другие более сложные операторы, например, count(S,C)[4], который подсчитывает число признаков в векторе признаков S, удовлетворяющих некоторому условию C, или, например, расстояния до другого класса распознавания, обобщённого некоторым устройством. Построение признака считается мощным средством для как увеличения точности, так и улучшения понимания структуры, особенно в задачах высокой размерности[5]. Приложения включают изучение болезней и распознавание эмоций[англ.] при разговоре[6].
Отбор и выделение
[править | править код]Начальное множество сырых признаков может быть избыточным и слишком большим для обработки. Таким образом, предварительный шаг во многих приложениях машинного обучения и распознавания образов состоит из отбора подмножества признаков или построения нового сокращённого множества признаков для обеспечения обучения улучшения общности и интерпретируемости.
Выделение или отбор признаков является комбинаций искусства и науки. Системы, позволяющие сделать это, известны как системы конструирования признаков. Для выделения и отбора признаков требуется проведение экспериментов со многими возможностями, а также нужно уметь комбинировать автоматизированные техники с интуицией и обладать знаниями узкого специалиста[англ.] в этой области. Автоматизация этого процесса называется обучением признакам, где машина не только использует признаки для собственного обучения, но и обучается новым признакам.
См. также
[править | править код]- Ковариата
- Конструирование признаков
- Хеширование признаков[англ.]
- Объяснимый искусственный интеллект[англ.]
Примечания
[править | править код]- ↑ Bishop, 2006.
- ↑ Liu, Motoda, 1998.
- ↑ Piramuthu, Sikora, 2009, с. 3401-3406.
- ↑ Bloedorn, Michalski, 1998, с. 30-37.
- ↑ Breiman, Friedman, Olshen, Stone, 1984.
- ↑ Sidorova, Badia, 2009.
Литература
[править | править код]- Christopher Bishop. Pattern recognition and machine learning. — Berlin: Springer, 2006. — ISBN 0-387-31073-8.
- Liu H., Motoda H. Feature Selection for Knowledge Discovery and Data Mining. — Norwell, MA, USA: Kluwer Academic Publishers, 1998.
- Piramuthu S., Sikora R. T. Iterative feature construction for improving inductive learning algorithms. In Journal of Expert Systems with Applications. — 2009. — Март (т. 36, вып. 2).
- Bloedorn E., Michalski R. Data-driven constructive induction: a methodology and its applications // IEEE Intelligent Systems, Special issue on Feature Transformation and Subset Selection. — 1998.
- Breiman L., Friedman T., Olshen R., Stone C. Classification and regression trees. — Wadsworth, 1984.
- Sidorova J., Badia T. Syntactic learning for ESEDA.1, tool for enhanced speech emotion detection and analysis. // Internet Technology and Secured Transactions Conference 2009 (ICITST-2009) London November 9–12. IEEE. — 2009.
Для улучшения этой статьи желательно:
|