ПРОСТРАНСТВА В ЗАДАЧАХ КЛАССИФИКАЦИИ Х.Ш. Рашидов НИИ Цифровых технологий и искусственного интеллекта базовый докторант
Аннотация: В статье рассматриваются вопросы формализации проблемы снижения
размерности признакового пространства в задачах классификации данных, а также
приведены результаты анализа наиболее известных эвристических методов выбора
признаков. Определены дальнейшие направления исследований по созданию новых
методов снижения размерности пространства признаков в задачах классификации.
Ключевые слова: Классификация данных, признаковое пространство, выбор
признаков,
критерий информативности, оптимальный набор признаков.
При решении большинства практических задач классификации возникает
необходимость отбора признаков из
-
за наличия в данных бесполезных и дублирующих друг
друга признаков, приводящих к необоснованному усложнению моделей алгоритмов
классификации. Стремление специалистов предметных областей учесть как можно больше
характеристик и свойств изучаемых объектов приводит к появлению избыточных
признаков, отрицательно влияющих на быстродействие алгоритмов. Поэтому проблема
отбора признаков (
features selection
) и в настоящее время остается актуальной, о чем
свидетельствует большое количество публикаций по этой проблеме, появляющихся в
последние годы (например, [1,2,3]).
Снижение размерности исходного пространства признаков в задачах анализа данных
представляет по существу переход от исходной системы признаков
𝑥 = (𝑥
1
, 𝑥
2
, . . . , 𝑥
𝑁
)
к
новой системе
𝑧 = (𝑧
1
, 𝑧
2
, . . . , 𝑧
ℓ
)
, включающей меньшее число признаков
(ℓ < 𝑁)
, чем
исходная система. Обычно новые признаки формируются в виде функций от исходных
признаков, т.е.
𝑧 = 𝐹(𝑥)
, путем решения оптимизационной задачи. Последняя заключается в
нахождении такой системы признаков
𝑧
, при которой
𝐼(𝑧̃) = 𝑚𝑎𝑥
𝐹∈𝛺
{𝐼(𝑧)}.
(1)
Здесь
𝐼(𝑧) −
заданная мера информативности
ℓ
-
мерной системы признаков
𝑧
, а
𝐹 −
класс допустимых преобразований исходных признаков
𝑥
1
, 𝑥
2
, … , 𝑥
𝑁
,
который в общем
случае может быть представлен одним из следующих типов преобразований: линейный,
нелинейный, дискретный, непрерывный, логический. Следует отметить, что конкретный