RAQAMLI TEXNOLOGIYALARNING YANGI O‘ZBEKISTON RIVOJIGA TA’SIRI Xalqaro ilmiy-amaliy konferensiyasi в отобранном наборе признаков или величиной ошибочно расклассифицированных
объектов, если выбор признаков осуществляется для конкретного правила классификации.
При рассмотрении методов выбора признаков далее будем предполагать, что качество
(информативность) признаков и их наборов оценивается по одному из этих критериев.
Задача определения оптимального набора признаков имеет относительно простое
решение в условиях независимости исходных признаков
𝑥
1
, 𝑥
2
, … , 𝑥
𝑁
. В этом случае
последние ранжируются по значениям критерия информативности каждого из этих
признаков, и для заданного
ℓ
определяется наилучший набор
𝑧̃ = (𝑥̃
1
, 𝑥̃
2
, … , 𝑥̃
ℓ
)
,
включающий первые
ℓ
наиболее информативных признаков ранжированного ряда.
Подробное описание этого метода приводится в [6].
Ситуация существенно усложняется при коррелированности исходных признаков
𝑥
1
, 𝑥
2
, … , 𝑥
𝑁
: для определения наилучшего набора из
ℓ
признаков необходимо сравнить все
возможные
𝐶
𝑁
ℓ
наборов из
ℓ
признаков. Если
ℓ
не фиксировано, то количество вариантов
достигает величины
𝑃 = ∑
𝐶
𝑁
ℓ
𝑁
ℓ=1
= 2
𝑁
− 1.
Отсюда следует, что метод полного перебора хотя и гарантирует определение
оптимального набора признаков
𝑧̃ = (𝑥̃
1
, 𝑥̃
2
, . . . , 𝑥̃
ℓ
)
, однако его можно использовать лишь
при небольшом числе исходных признаков.
В связи с этим обстоятельством в прикладных исследованиях обычно используются
методы частичного перебора, позволяющие получить субоптимальный набор признаков
при сравнительно малых вычислительных затратах. Согласно [6] среди них наиболее
распространенными считаются методы, использующие процедуры последовательного
отбрасывания
признаков
(алгоритм
«последовательной
селекции
назад»),
последовательного присоединения признаков (алгоритм «последовательной селекции
вперед»), а также комбинации этих процедур.
Результаты сравнительного анализа этих методов по вычислительным затратам
приведены в [6], где показано, что в условиях представительной выборки процедура
последовательного присоединения обеспечивает результаты, более близкие к
оптимальному, чем процедура последовательного отбрасывания. Каждому из этих методов
присущи свои недостатки. Например, при реализации процедуры последовательного
присоединения нельзя отбросить признак, включенный в оптимальный набор на
предыдущих шагах, а при использовании процедуры последовательного отбрасывания не
учитывается статистическое влияние исключенных ранее признаков.
Другим широко применяемым методом выбора информативных признаков является
случайный поиск с адаптацией (метод СПА) [7,8], использующий псевдослучайный датчик
для генерирования булевских векторов
𝜆
таких, где
∑
𝜆
𝑗
𝑁
𝑗=1
= ℓ
. При этом вероятность
выпадения каждого из
𝑁
признаков в начале одинакова и равна
1
𝑁
. Иными словами, на основе
вектора вероятностей
𝑝 = (𝑝
1
, 𝑝
2
, . . . , 𝑝
𝑁
)
, где
𝑝
𝑗
-
вероятность выпадения признака
𝑗
, датчик