grandov.ru страница 1
скачать файл
Федеральное агентство по образованию РФ

Тульский государственный университет

Кафедра АТМ

Реферат


по курсу «Интеллектуальный анализ данных»

на тему


«Методы обучения распознаванию образов.

Статистические методы»



Выполнил: студент группы 230661

Хиндикайнен А.С.


Проверил: Середин О.С.

Тула 2010


Содержание




Распознавание образов. Основные группы методов распознавания образов. 3

Основы математической статистики Задачи математической статистики 5

Правило Байеса 6

Статистические методы распознавания образов. Постановка задачи. 8

Заключение 11

Список использованной литературы 12




Распознавание образов. Основные группы методов распознавания образов.


Распознавание образов – раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и т. п. объектов, которые характеризуются конечным набором некоторых свойств и признаков, то есть задачей распознавания образов является построение такого решающего правила, которое смогло бы отнести объект к какой-либо группе.

Такие задачи решаются довольно часто, например, при переходе или проезде улицы по сигналам светофора. Распознавание цвета загоревшейся лампы светофора и знание правил дорожного движения позволяет принять правильное решение о том, можно или нельзя переходить улицу в данный момент.

Создание искусственных систем распознавания образов остаётся сложной теоретической и технической проблемой. Необходимость в таком распознавании возникает в самых разных областях — от военного дела и систем безопасности до оцифровки всевозможных аналоговых сигналов. [1]

Методы распознавания образов часто делят на следующие группы:



  1. Сравнение с образцом.

Применяется геометрическая нормализация и считается расстояние до прототипа.

Наиболее наглядным примером будет распознавание текста – имеется изображение отсканированного символа и набор изображений символов алфавита, и мы хотим определить, какой букве алфавита соответствует отсканированное изображение. В таком случае отсканированное изображение очищается от шумов, масштабируется и вычисляется, расстояния до какого символа алфавита из набора минимально. [2]



  1. С использованием искусственных нейронных сетей

Искусственная нейронная сеть представляет собой систему соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов). Такие процессоры обычно довольно просты, особенно в сравнении с процессорами, используемыми в персональных компьютерах. Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. И, тем не менее, будучи соединёнными в достаточно большую сеть с управляемым взаимодействием, такие локально простые процессоры вместе способны выполнять довольно сложные задачи. [2]

  1. Структурные (синтаксические) методы

Образ раскладывается на примитивы, и, в зависимости от вхождения/не вхождения каких-либо примитивов и/или их последовательностей.

  1. Статистические методы

На них мы остановимся более подробно, но для начала

Основы математической статистики Задачи математической статистики


Распределение (плотность распределения) – функция, которая каждому значению сопоставляет его вероятность.

Примерами распределений могут служить:



  1. Равномерное распределение – равная вероятность значений из интервала [a,b], для значений вне интервала – вероятность равна 0.

  2. Нормально распределение. Например, вероятность того, что бросив монету 1000 раз, n раз выпадет орел.

Выборка – Набор значений случайной величины X1, X2… Xn

Основными задачами математической статистики являются задача оценки параметров и задача проверки гипотез. Примером задачи оценки параметров может служить задача оценки отрезка, на котором производился выбор случайных величин, если были получены значения (5,7,1) и известно, что эти случайные подчиняются равномерному закону распределения. Задача проверки гипотез – необходимо выдвинуть предположение о распределении вероятностей экспериментальных данных. В случае двухальтернативной задачи проверки гипотез одну из гипотез называют основной гипотезой, а вторую – альтернативной. При этом верна только одна из них. [4]




Правило Байеса


Пусть даны два распределения A и B и значение X, порожденное одним из этих распределений. Наша задача определить, каким из распределений было порождено значение X. Если бы нам предложили интуитивно выбрать правило, по которому мы бы выбрали один из двух законов распределения, то мы бы выбрали распределение A, если

, где P(A|X) – апостериорная вероятность, то есть вероятность того, что нужный нам закон распределения – это закон A при условии, что мы наблюдали значение X. Сделаем некоторые преобразования:



, где P(A) –априорная вероятность распределения A.

Так как P(X) от выбора гипотезы не зависит, мы будем выбирать гипотезу A, если

Во многих случаях гипотезы равновероятны и второй множитель можно не учитывать. [2]

Обобщим задачу: пусть есть n гипотез , выбор гипотезы будем делать, руководствуясь следующим правилом:

или, при условии, что гипотезы равновероятны,






Статистические методы распознавания образов. Постановка задачи.


Считаем, что элементы каждой категории имеют свое распределение в n-мерном пространстве. Будем принимать решение согласно правилу Байеса. Но для этого необходимо знать функции распределения каждой категории. Далее возможны три варианта:

  1. Функции распределения нам известны

  2. Нам известен тип распределения, но не параметры

  3. Нам ничего неизвестно о функциях распределения.

1. Функции распределения известны

Просто используем правило Байеса.



2. Известен тип, но не параметры.

Будем использовать точечные оценки для параметров распределения. Например, для нормального распределения:





3.Ничего неизвестно о функциях распределения

Для построения функции распределения воспользуемся тренировочной коллекцией.

Рассмотрим 2 метода построения функции распределения:


  1. Метод гистограмм

Разобьем n-мерное пространство на части. Каждой части определим плотность распределения, как долю всех точек, попавших в эту часть.

Минусом этого метода является то, что при большой размерности пространства признаков необходима огромная обучающая коллекция для построения функции распределения. [2]



  1. Метод Парзена

Для каждой точки из класса построим функцию, достигающую максимума в этой точке, и быстро убывающую при удалении от нее. В качестве функции распределения возьмем среднее арифметическое построенных функций.[2]

Функция K(x) называется ядром. В зависимости от выбора ядра могут быть получены разные результаты обучения, выбор слишком большого или слишком маленького ядра может ухудшить качество распознавания. [2]



Наиболее часто размер ядро выбирается индивидуально для каждого обучающего элемента из коллекции. Критерием выбора обычно используется количество соседей обучающего элемента, попавших в это ядро. [2]




Заключение


Статистический байесовский подход является одним из старейших в теории классификации и лежит в основе многих методов обучения. Он опирается на предположение, что плотности распределения каждого из классов известны. В этом случае удаётся в явном виде выписать алгоритм классификации, имеющий минимальную вероятность ошибок. На практике плотности классов, конечно же, неизвестны. Их приходится оценивать (восстанавливать) по обучающей выборке, что невозможно сделать с абсолютной точностью. В результате байесовский алгоритм перестаёт быть оптимальным. Чем короче выборка, тем выше шансы подогнать. распределение под конкретные данные и столкнуться с эффектом переобучения. [3]

Список использованной литературы




  1. Википедия – статья «Теория распознавания образов»

http://ru.wikipedia.org/wiki/Теория_Распознавания_Образов

  1. Лифшиц Ю.И., курс лекций «Современные задачи теоретической информатики»

http://yury.name/modern/

  1. К. В. Воронцов – Лекции по статистическим (Байесовским) алгоритмам классификации.

http://www.machinelearning.ru/wiki/index.php?title=Байесовский классификатор

  1. Википедия – статья «Распределение вероятностей»

http://ru.wikipedia.org/wiki/Распределение_Вероятностей
скачать файл



Смотрите также:
Реферат по курсу «Интеллектуальный анализ данных»
64.46kb.
Размещаемой в средствах массовой информации. В отчетном периоде 2014 года данных фактов не выявлено (в 2013 г. 0)
32.54kb.
Реферат по курсу «Универсум художественной культуры»
241.23kb.
1. Назначение и основные компоненты среды базы данных. Предшественники баз данных. Необходимость централизованного управления данными. Концепция интеграции. Предшественники баз данных. База данных
1033.46kb.
Лабораторная работа №3 «Встроенные структуры данных»
69.42kb.
Что такое базы данных? Первые модели данных. Системы управления файлами
12.53kb.
Реферат по курсу «Экспериментальный метод в психологии»
209.27kb.
Внимание руководителям организаций всех форм собственности! Информация о Федеральном законе от 27 июля 2006 г. №152-фз «О персональных данных»!
19.05kb.
Проектно – исследовательская работа
192.23kb.
Анализ конвергенционных клубов по параметрам динамики ввп на душу населения
59.29kb.
Учебно-методические указания к выполнению лабораторной работы по курсу "Рентгеноструктурный анализ"
112.13kb.
Проектирование и внедрение в производство машины баз данных
27.72kb.