Команда
Контакти
Про нас

    Головна сторінка


Нейромережеві методи розпізнавання зображень





Скачати 14.81 Kb.
Дата конвертації15.08.2019
Розмір14.81 Kb.
Типдоповідь

Нейромережеві методи розпізнавання зображень

Нейромережеві методи РОЗПІЗНАВАННЯ ЗОБРАЖЕНЬ

Виконано огляд нейромережевих методів, використовуваних при розпізнаванні зображень. Нейромережеві методи - це методи, що базуються на застосуванні різних типів нейронних мереж (НС). Основні напрямки застосування різних НС для розпізнавання образів і зображень:

застосування для отримання ключових характеристик або ознак заданих образів, класифікація самих образів або вже витягнутих з них характеристик (в першому випадку витяг ключових характеристик відбувається неявно всередині мережі), рішення оптимізаційних завдань.

Архітектура штучних НС має деяку схожість з природними нейронними мережами. НС, призначені для вирішення різних завдань, можуть істотно відрізнятися алгоритмами функціонування, але їх основні характеристики наступні [1-3].

НС складається з елементів, які називаються формальними нейронами, які самі по собі дуже прості і пов'язані з іншими нейронами. Кожен нейрон перетворює набір сигналів, що надходять до нього на вхід у вихідний сигнал. Саме зв'язку між нейронами, які кодуються вагами, грають ключову роль. Одна з переваг НС (а так же недолік при реалізації їх на послідовній архітектурі) це те, що всі елементи можуть функціонувати паралельно, тим самим істотно підвищуючи ефективність вирішення завдання, особливо в обробці зображень. Крім того, що НС дозволяють ефективно вирішувати багато завдань, вони надають потужні гнучкі і універсальні механізми навчання, що є їх головною перевагою перед іншими методами [4,5] (імовірнісні методи, лінійні роздільники, вирішальні дерева і т.п.). Навчання позбавляє від необхідності вибирати ключові ознаки, їх значимість і відносини між ознаками. Але тим не менше вибір вихідного представлення вхідних даних (вектор в n-вимірному просторі, частотні характеристики, вейвлет і т.п.), істотно впливає на якість рішення і є окремою темою. НС мають гарну узагальнюючої здатністю (краще ніж у вирішальних дерев [5]), тобто можуть успішно поширювати досвід, отриманий на кінцевому навчальному наборі, на ввесь люд образів.

Опишемо застосування НС для розпізнавання зображень, відзначаючи можливості застосування для розпізнавання людини по зображенню особи.

1. Багатошарові нейронні мережі

Архітектура багатошарової нейронної мережі (МНС) складається з послідовно з'єднаних шарів, де нейрон кожного шару своїми входами пов'язаний з усіма нейронами попереднього шару, а виходами - наступного. НС з двома вирішальними шарами може з будь-якою точністю апроксимувати будь-яку багатовимірну функцію. НС з одним вирішальним шаром здатна формувати лінійні розділяють поверхні, що сильно звужує коло завдань які вони вирішують, зокрема така мережа не зможе вирішити завдання типу "виключає або". НС з нелінійної функцією активації і двома вирішальними шарами дозволяє формувати будь-які опуклі області в просторі рішень, а з трьома вирішальними шарами - області будь-якої складності, в тому числі і неопуклого. При цьому МНС не втрачає своєї узагальнюючої здатності. Навчаються МНС за допомогою алгоритму зворотного поширення помилки, що є методом градієнтного спуску в просторі ваг з метою мінімізації сумарної помилки мережі. При цьому помилки (точніше величини корекції ваг) поширюється в зворотному напрямку від входів до виходів, крізь ваги, що з'єднують нейрони.

Найпростіше застосування одношарової НС [6] (званої автоасоціативною пам'яттю) полягає в навчанні мережі відновлювати подаються зображення. Подаючи на вхід тестове зображення і обчислюючи якість реконструйованого зображення, можна оцінити наскільки мережу розпізнала вхідне зображення. Позитивні властивості цього методу полягають в тому, що мережа може відновлювати перекручені і зашумлені зображення, але для більш серйозних цілей він не підходить.

Мал. 1. Багатошарова нейронна мережа для класифікації зображень. Нейрон з максимальною активністю (тут перший) вказує приналежність до розпізнаного класу.

МНС так само використовується для безпосередньої класифікації зображень - на вхід подається або саме зображення в будь-якому вигляді, або набір раніше витягнутих ключових характеристик зображення, на виході нейрон з максимальною активністю вказує приналежність до розпізнаного класу (рис. 1). Якщо ця активність нижче деякого порога, то вважається, що поданий образ не належить ні до одного з відомих класів. Процес навчання встановлює відповідність поданих на вхід образів з належністю до певного класу. Це називається навчанням з учителем. У застосуванні до розпізнавання людини по зображенню особи, такий підхід гарний для завдань контролю доступу невеликої групи осіб. Такий підхід забезпечує безпосереднє порівняння мережею самих образів, але зі збільшенням числа класів час навчання і роботи мережі зростає експоненціально. Тому для таких завдань, як пошук схожої людини у великій базі даних, вимагає вилучення компактного набору ключових характеристик, на основі яких можна здійснювати пошук.

Підхід до класифікації з використанням частотних характеристик всього зображення, описаний в [7]. Застосовувалася одношарова НС, заснована на багатозначних нейронах. Відзначено 100% розпізнавання на базі даних MIT, але при цьому здійснювалося розпізнавання серед зображень, яким мережа була навчена.

Застосування МНС для класифікації зображень облич на основі таких характеристик, як відстані між деякими специфічними частинами особи (ніс, рот, очі), описано в [8]. У цьому випадку на вхід НС подавалися ці відстані. Використовувалися також гібридні методи - в першому на вхід НС подавалися результати обробки прихованої марковської моделлю, а в другому - результат роботи НС подавався на вхід марковської моделі. У другому випадку переваг не спостерігалося, що говорить про те, що результат класифікації НС достатній.

В [9] показано застосування НС для класифікації зображень, коли на вхід мережі надходять результати декомпозиції зображення за методом головних компонент.

У класичній МНС міжшарові нейронні з'єднання повнозв'язну, і зображення представлено у вигляді одновимірного вектора, хоча воно двумерно. Архітектура свёрточной НС [10] спрямована на подолання цих недоліків. У ній використовувалися локальні рецепторні поля (забезпечують локальну двовимірну зв'язність нейронів), загальні ваги (забезпечують детектування деяких рис в будь-якому місці зображення) і ієрархічна організація з просторовими підвибірки (spatial subsampling). Свёрточная НС (СНС) забезпечує часткову стійкість до змін масштабу, зсувів, поворотам, спотворень. Архітектура СНС складається з багатьох шарів, кожен з яких має кілька площин, причому нейрони наступного шару пов'язані тільки з невеликим числом нейронів попереднього шару з околиці локальної області (як в зоровій корі людини). Ваги в кожній точці одній площині однакові (свёрточние шару). За свёрточним шаром слід шар, що зменшує його розмірність шляхом локального усереднення. Потім знову свёрточний шар, і так далі. Таким чином, досягається ієрархічна організація. Пізніші шари витягують найбільш загальні властивості, менше залежать від спотворень зображення. Навчається СНС стандартним методом зворотного поширення помилки. Порівняння МНС і СНС [10] показало істотні переваги останньої як за швидкістю, так і по надійності класифікації. Корисною властивістю СНР є і те, що характеристики, що формуються на виходах верхніх шарів ієрархії, можуть бути застосовні для класифікації за методом найближчого сусіда (наприклад, обчислюючи евклідів відстань), причому СНС може успішно використовувати такі характеристики і для образів, відсутніх в навчальному наборі. Для СНС характерні швидка швидкість навчання і роботи. Тестуванні СНС на базі даних ORL, що містить зображення осіб з невеликими змінами освітлення, масштабу, просторових поворотів, положення і різними емоціями, показало приблизно 98% точність розпізнавання, причому для відомих осіб, пред'являлися варіанти їх зображень, відсутні в навчальному наборі. Такий результат робить цю архітектуру перспективною для подальших розробок в області розпізнавання зображень просторових об'єктів.

МНС застосовуються і для виявлення об'єктів певного типу. Крім того, що будь-яка навчена МНС в деякій мірі може визначати приналежність образів до "своїм" класам, її можна спеціально навчити надійному детектування певних класів. В цьому випадку вихідними класами будуть класи належать і не належать до заданого типу образів. В [11] застосовувався нейромережевої детектор для виявлення зображення особи у вхідному зображенні. Зображення сканувати вікном 20х20 пікселів, яке подавалося на вхід мережі, вирішальною належить ця ділянка до класу осіб. Навчання проводилося як з використанням позитивних прикладів (різних зображень осіб), так і негативних (зображень, які не є особами). Для підвищення надійності детектування використовувався колектив НС, навчених з різними початковими вагами, внаслідок чого НС помилялися по різному, а остаточне рішення приймалося голосуванням всього колективу.

Мал. 2. Головні компоненти (власні особи) і розкладання зображення на головні компоненти.

НС застосовується так само для вилучення ключових характеристик зображення, які потім використовуються для подальшої класифікації. В [1,6], показаний спосіб нейромережевої реалізації методу аналізу головних компонент. Суть методу аналізу головних компонент полягає в отриманні максимально декореллірованних коефіцієнтів, що характеризують вхідні образи. Ці коефіцієнти називаються головними компонентами і використовуються для статистичного стиснення зображень, в якому невелика кількість коефіцієнтів використовується для представлення всього образу. НС з одним прихованим шаром містить N нейронів (яке багато менше ніж розмірність зображення), навчена за методом зворотного поширення помилки відновлювати на виході зображення, подане на вхід, формує на виході прихованих нейронів коефіцієнти перших N головних компонент, які і використовуються для порівняння. Зазвичай використовується від 10 до 200 головних компонент. Зі збільшенням номера компоненти її репрезентативність сильно знижується, і використовувати компоненти з великими номерами не має сенсу. При використанні нелінійних активаційних функцій нейронних елементів можлива нелінійна декомпозиція на головні компоненти. Нелінійність дозволяє більш точно відобразити варіації вхідних даних. Застосовуючи аналіз головних компонент до декомпозиції зображень осіб, отримаємо головні компоненти, звані власними особами (holons в роботі [6]), яким так само притаманне корисна властивість - існують компоненти, які в основному відображають такі істотні характеристики особи як стать, раса, емоції. При відновленні компоненти мають вигляд, схожий на обличчя, причому перші відображають найбільш загальну форму обличчя, останні - різні дрібні відмінності між особами (рис. 2). Такий метод добре застосуємо для пошуку схожих зображень осіб у великих базах даних. Показана також можливість подальшого зменшення розмірності головних компонент за допомогою НС [6]. Оцінюючи якість реконструкції вхідного зображення можна дуже точно визначати його приналежність до класу осіб.

2. Нейронні мережі високого порядку

Нейронні мережі високого порядку (НСВП) відрізняються від МНС тим, що у них тільки один шар, але на входи нейронів надходять так само терми високого порядку, що є твором двох або більше компонент вхідного вектора [1]. Такі мережі так само можуть формувати складні розділяють поверхні.

В [12] показано застосування НСВП строго третього порядку для розпізнавання зображень облич, що мають довільні масштаби і двовимірні повороти.Наведено методи навчання таких мереж. Особливість такої мережі полягають в тому, що для навчання певного класу досить пред'явити його образ без варіацій масштабів і поворотів - після навчання мережа буде розпізнавати відомі класи інваріантної до масштабу і поворотів. Така мережа не є повно, швидко навчається і працює. Відзначено істотне підвищення точності класифікації такою мережею повернених і масштабування зображень в порівнянні з МНС.

3. Нейронні мережі Хопфілда

НС Хопфилда (НСХ) є одношарової і повно (зв'язки нейронів на самих себе відсутні), її виходи пов'язані зі входами. На відміну від МНС, НСХ є релаксационной - тобто будучи встановленої в початковий стан, функціонує до тих пір, поки не досягне стабільного стану, яке і буде її вихідним значенням. НСХ застосовуються в якості асоціативної пам'яті і для вирішення оптимізаційних завдань. У першому випадку НСХ навчається без учителя (наприклад, за правилом Хебба), у другому випадку ваги між нейронами спочатку кодують решаемую завдання. НСХ бувають синхронними, коли одночасно перераховуються всі нейрони і асинхронними, коли перераховується випадково обраний нейрон. Для дослідження динаміки функціонування НСХ використовуються методи Ляпунова. Показано [1], що асинхронна НСХ завжди сходиться до стійким точкам, а аттракторами синхронної НСХ є стійкі стаціонарні точки і граничні цикли довжини два. Таким чином НСХ з початкового стану сходиться до найближчого локального мінімуму енергії мережі, стан нейронів в якому і буде відновленим чином для задач розпізнавання, і рішенням - для оптимізаційних задач. Для пошуку глобального мінімуму стосовно до оптимізаційних завдань використовують стохастичні модифікації НСХ [1].

Застосування НСХ в якості асоціативної пам'яті дозволяє точно відновлювати образи, яким мережа навчена, при подачі на вхід спотвореного образу. При цьому мережа "згадає" найбільш близький (в сенсі локального мінімуму енергії) образ, і таким чином розпізнає його. Таке функціонування так само можна уявити як послідовне застосування автоасоціативною пам'яті, описаної вище. На відміну від автоасоціативною пам'яті НСХ ідеально точно відновить образ. Для уникнення інтерференційних мінімумів та підвищення ємності мережі використовують різні методи [1,13]. В роботі [13] описано застосування НСХ, де распознаваемое зображення обличчя спочатку подавалося на НСХ, вихід якої потім порівнювався з збереженими зображеннями. Відзначено, що попередня обробка вхідного зображення за допомогою НСХ істотно підвищує точність розпізнавання.

Застосування НСХ як оптимізаційного методу для відновлення просторової форми особи по двовимірному напівтонового зображення (а так само для детектування граней) описано в [14]. Тут використовується варіація НСХ - ячеистая нейронна мережа (Янс), в якій нейрони пов'язані тільки з найближчими сусідами з двовимірної області. Матриця зв'язків однакова для всіх нейронів і визначається характером завдання. Відзначаються хороші результати відновлення тривимірної форми (зокрема для зображень осіб) і висока швидкість роботи.

4. Самоорганізуються нейронні мережі Кохонена

Самоорганізуються нейронні мережі Кохонена (СНСК) забезпечують топологічний упорядкування вхідного простору образів. Вони дозволяють топологічно безперервно відображати вхідний n-мірний простір в вихідний m-мірне, m


  • Мал. 2. Головні компоненти (власні особи) і розкладання зображення на головні компоненти.