Конструирование признаков (Tkuvmjrnjkfguny hjn[ugtkf)
Конструирование признаков — процесс использования предметной области для определения признаков, используемых для машинного обучения. Конструирование признаков является неформальной областью, но считается важной составляющей машинного обучения; как отмечал Эндрю Ын, «прикладное машинное обучение — в основном это конструирование признаков».
Признак может быть строго существенен (имеет информацию, которая не существует в других признаках), существенен, малосущественен (содержит информацию, которая может содержаться в других признаках) или несущественен[1]. Важно создать много признаков, даже если некоторые из них будут несущественны, затем может быть использован отбор признаков для предотвращения переобучения[2].
Взрыв признаков может быть вызван путём комбинации признаков или шаблонов признаков, что ведёт к быстрому росту общего числа признаков.
Шаблоны признаков — внедрение шаблонов признаков вместо кодирования новых признаков
Комбинации признаков — комбинации, которые не могут быть представлены в виде линейной комбинации Существует несколько решений для останова взрыва признаков, такие как регуляризация, ядерный метод, отбор признаков[3].
Автоматическое конструирование признаков
[править | править код]Необходимости трудоёмкого ручного конструирования признаков можно избежать при автоматизации прикладного обучения признакам.
В 2015 году исследователи Массачусетского технологического института представили алгоритм «Deep Feature Synthesis» (глубокий синтез признаков, опубликован как открытая библиотека Featuretools) и продемонстрировали его эффективность: алгоритм переиграл 615 из 906 команд людей[4][5]. Эту работу продолжили другие исследователи, включая OneBM компании IBM[6] и ExploreKit компании Berkeley[7]. Исследователи из IBM утверждают, что автоматизация конструирования признаков «помогает сократить время исследования данных, позволяя экспериментировать на них методом проб и ошибок за короткое время. С другой стороны, это даёт возможность, не будучи экспертом, то есть, не будучи знакомым с методами анализа данных, быстро выбрать значение из данных с небольшими усилиями, временными и денежными затратами.»
Появились коммерческие продукты от новых компаний, фокусирующихся на машинном обучении, такие как H20.ai[8] и Feature Labs[9].
См. также
[править | править код]- Ковариата
- Хеш-трюк[англ.]
- Ядерный метод
- Список наборов данных для изучения машинного обучения[англ.]
Примечания
[править | править код]- ↑ Feature Engineering (22 апреля 2010). Дата обращения: 12 ноября 2015. Архивировано 6 сентября 2015 года.
- ↑ Feature engineering and selection . Alexandre Bouchard-Côté. Дата обращения: 12 ноября 2015. Архивировано 14 марта 2016 года.
- ↑ Feature engineering in Machine Learning . Zdenek Zabokrtsky. Дата обращения: 12 ноября 2015. Архивировано из оригинала 4 марта 2016 года.
- ↑ Automating big-data analysis . Дата обращения: 30 октября 2018. Архивировано 14 сентября 2019 года.
- ↑ Deep Feature Synthesis: Towards Automating Data Science Endeavors . Дата обращения: 30 октября 2018. Архивировано 18 августа 2019 года.
- ↑ One button machine for automating feature engineering in relational databases . Дата обращения: 30 октября 2018. Архивировано 4 октября 2019 года.
- ↑ ExploreKit: Automatic Feature Generation and Selection . Дата обращения: 30 октября 2018. Архивировано 4 октября 2019 года.
- ↑ H2O.AI snares $40M Series C investment led by Wells Fargo and Nvidia . Дата обращения: 30 октября 2018. Архивировано 1 ноября 2018 года.
- ↑ Feature Labs launches out of MIT to accelerate the development of machine learning algorithms . Дата обращения: 30 октября 2018. Архивировано 1 декабря 2018 года.
Для улучшения этой статьи желательно:
|