Способы представления исходной информации в интеллектуальных системах

Нажмите для полного просмотра!

Способы представления исходной информации в интеллектуальных системах, слайд №2

Способы представления исходной информации в интеллектуальных системах, слайд №3

Способы представления исходной информации в интеллектуальных системах, слайд №4

Способы представления исходной информации в интеллектуальных системах, слайд №5

Способы представления исходной информации в интеллектуальных системах, слайд №6

Способы представления исходной информации в интеллектуальных системах, слайд №7

Способы представления исходной информации в интеллектуальных системах, слайд №8

Способы представления исходной информации в интеллектуальных системах, слайд №9

Способы представления исходной информации в интеллектуальных системах, слайд №10

Способы представления исходной информации в интеллектуальных системах, слайд №11

Способы представления исходной информации в интеллектуальных системах, слайд №12

Способы представления исходной информации в интеллектуальных системах, слайд №13

Способы представления исходной информации в интеллектуальных системах, слайд №14

Способы представления исходной информации в интеллектуальных системах, слайд №15

Способы представления исходной информации в интеллектуальных системах, слайд №16

Способы представления исходной информации в интеллектуальных системах, слайд №17

Способы представления исходной информации в интеллектуальных системах, слайд №18

Способы представления исходной информации в интеллектуальных системах, слайд №19

Способы представления исходной информации в интеллектуальных системах, слайд №20

Способы представления исходной информации в интеллектуальных системах, слайд №21

Способы представления исходной информации в интеллектуальных системах, слайд №22

Способы представления исходной информации в интеллектуальных системах, слайд №23

Способы представления исходной информации в интеллектуальных системах, слайд №24

Способы представления исходной информации в интеллектуальных системах, слайд №25

Способы представления исходной информации в интеллектуальных системах, слайд №26

Способы представления исходной информации в интеллектуальных системах, слайд №27

Способы представления исходной информации в интеллектуальных системах, слайд №28

Способы представления исходной информации в интеллектуальных системах, слайд №29

Способы представления исходной информации в интеллектуальных системах, слайд №30

Способы представления исходной информации в интеллектуальных системах, слайд №31

Способы представления исходной информации в интеллектуальных системах, слайд №32

Способы представления исходной информации в интеллектуальных системах, слайд №33

Способы представления исходной информации в интеллектуальных системах, слайд №34

Способы представления исходной информации в интеллектуальных системах, слайд №35

Способы представления исходной информации в интеллектуальных системах, слайд №36

Способы представления исходной информации в интеллектуальных системах, слайд №37

Способы представления исходной информации в интеллектуальных системах, слайд №38

Способы представления исходной информации в интеллектуальных системах, слайд №39

Способы представления исходной информации в интеллектуальных системах, слайд №40

Способы представления исходной информации в интеллектуальных системах, слайд №41

Способы представления исходной информации в интеллектуальных системах, слайд №42

Способы представления исходной информации в интеллектуальных системах, слайд №43

Способы представления исходной информации в интеллектуальных системах, слайд №44

Способы представления исходной информации в интеллектуальных системах, слайд №45

Способы представления исходной информации в интеллектуальных системах, слайд №46

Способы представления исходной информации в интеллектуальных системах, слайд №47

Способы представления исходной информации в интеллектуальных системах, слайд №48

Способы представления исходной информации в интеллектуальных системах, слайд №49

Способы представления исходной информации в интеллектуальных системах, слайд №50

Способы представления исходной информации в интеллектуальных системах, слайд №51

Способы представления исходной информации в интеллектуальных системах, слайд №52

Способы представления исходной информации в интеллектуальных системах, слайд №53

Способы представления исходной информации в интеллектуальных системах, слайд №54

Способы представления исходной информации в интеллектуальных системах, слайд №55

Способы представления исходной информации в интеллектуальных системах, слайд №56

Способы представления исходной информации в интеллектуальных системах, слайд №57

Способы представления исходной информации в интеллектуальных системах, слайд №58

Способы представления исходной информации в интеллектуальных системах, слайд №59

Способы представления исходной информации в интеллектуальных системах, слайд №60

Способы представления исходной информации в интеллектуальных системах, слайд №61

Способы представления исходной информации в интеллектуальных системах, слайд №62

Способы представления исходной информации в интеллектуальных системах, слайд №63

Способы представления исходной информации в интеллектуальных системах, слайд №64

Способы представления исходной информации в интеллектуальных системах, слайд №65

Способы представления исходной информации в интеллектуальных системах, слайд №66

Способы представления исходной информации в интеллектуальных системах, слайд №67

Способы представления исходной информации в интеллектуальных системах, слайд №68

Способы представления исходной информации в интеллектуальных системах, слайд №69

Способы представления исходной информации в интеллектуальных системах, слайд №70

Способы представления исходной информации в интеллектуальных системах, слайд №71

Способы представления исходной информации в интеллектуальных системах, слайд №72

Способы представления исходной информации в интеллектуальных системах, слайд №73

Способы представления исходной информации в интеллектуальных системах, слайд №74

Способы представления исходной информации в интеллектуальных системах, слайд №75

Содержание ▲

Вы можете ознакомиться и скачать презентацию на тему Способы представления исходной информации в интеллектуальных системах. Доклад-сообщение содержит 75 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации

Слайд 1

Описание слайда:

Лекция 10 Способы представления исходной информации в интеллектуальных системах

Слайд 2

Описание слайда:

Человек, решающий задачу выбора целесообразного поведения в той или иной ситуации, прежде всего анализирует существенные и несущественные обстоятельства, влияющие на принимаемое решение. Процесс выделения существенных для данной задачи обстоятельств можно представить как разбиение входных ситуаций на классы, обладающие тем свойством, что все ситуации из одного класса требуют одних и тех же действий. Человек, решающий задачу выбора целесообразного поведения в той или иной ситуации, прежде всего анализирует существенные и несущественные обстоятельства, влияющие на принимаемое решение. Процесс выделения существенных для данной задачи обстоятельств можно представить как разбиение входных ситуаций на классы, обладающие тем свойством, что все ситуации из одного класса требуют одних и тех же действий.

Слайд 3

Описание слайда:

Оценка входной ситуации человеком происходит на основе совокупности сигналов, поступающих от его органов чувств. На основании этих сигналов мозг вырабатывает команды, которые обеспечивают реакцию человека на ситуацию. Сигналы поступают от рецепторов (зрительных, тактильных и др.). Совокупность таких сигналов формирует представление человека о ситуации. Оценка входной ситуации человеком происходит на основе совокупности сигналов, поступающих от его органов чувств. На основании этих сигналов мозг вырабатывает команды, которые обеспечивают реакцию человека на ситуацию. Сигналы поступают от рецепторов (зрительных, тактильных и др.). Совокупность таких сигналов формирует представление человека о ситуации.

Слайд 4

Описание слайда:

Вычислительная машина, на которой моделируется аналогичный процесс, должна обладать возможностью получать описание входной ситуации от внешних «рецепторов» в виде различных наборов данных. Очевидно, объем информации, который получает компьютер, несоизмеримо меньше объемов информации, с которыми имеет дело человек; кроме того, такая информация будет представлена исключительно в численной форме. Вычислительная машина, на которой моделируется аналогичный процесс, должна обладать возможностью получать описание входной ситуации от внешних «рецепторов» в виде различных наборов данных. Очевидно, объем информации, который получает компьютер, несоизмеримо меньше объемов информации, с которыми имеет дело человек; кроме того, такая информация будет представлена исключительно в численной форме.

Слайд 5

Описание слайда:

Для того, чтобы эффективно оценить, относятся ли различные ситуации к одному классу, интеллектуальная система должна иметь возможность рассмотреть и оценить ряд конкретных примеров таких ситуаций, включенных в обучающее множество. Для того, чтобы эффективно оценить, относятся ли различные ситуации к одному классу, интеллектуальная система должна иметь возможность рассмотреть и оценить ряд конкретных примеров таких ситуаций, включенных в обучающее множество.

Слайд 6

Описание слайда:

Обучение на основе примеров является типичным случаем индуктивного обучения и широко используется в интеллектуальных системах. На основе предъявленных примеров (и, возможно, контрпримеров) интеллектуальная система должна сформировать общее понятие, охватывающее примеры и исключающее контрпримеры. Обучение на основе примеров является типичным случаем индуктивного обучения и широко используется в интеллектуальных системах. На основе предъявленных примеров (и, возможно, контрпримеров) интеллектуальная система должна сформировать общее понятие, охватывающее примеры и исключающее контрпримеры.

Слайд 7

Описание слайда:

Источником примеров, на которых осуществляется обучение, может быть учитель то есть лицо, которое заранее знает концепцию формируемого понятия и подбирает наиболее удачные обучающие выборки. Источником примеров, на которых осуществляется обучение, может быть учитель то есть лицо, которое заранее знает концепцию формируемого понятия и подбирает наиболее удачные обучающие выборки.

Слайд 8

Описание слайда:

Источником примеров для обучения может быть внешняя среда, с которой взаимодействует интеллектуальная система. В этом случае обучающие выборки формируются случайным образом в зависимости от внешних факторов. Обучение на таких выборках существенно сложнее. Источником примеров для обучения может быть внешняя среда, с которой взаимодействует интеллектуальная система. В этом случае обучающие выборки формируются случайным образом в зависимости от внешних факторов. Обучение на таких выборках существенно сложнее.

Слайд 9

Описание слайда:

Наконец, источником примеров для обучения может стать сама интеллектуальная система. Например, в случае взаимодействия интеллектуального робота с внешней средой действия самого робота могут привести к созданию обучающей выборки, то есть образуется множество сходных ситуаций с известными результатами, которые можно затем обобщить. Наконец, источником примеров для обучения может стать сама интеллектуальная система. Например, в случае взаимодействия интеллектуального робота с внешней средой действия самого робота могут привести к созданию обучающей выборки, то есть образуется множество сходных ситуаций с известными результатами, которые можно затем обобщить.

Слайд 10

Описание слайда:

Для системы машинного обучения принципиально важным является вопрос, что поступает на вход системы, в каком виде предъявляются примеры понятия, включенные в состав обучающего множества. Для системы машинного обучения принципиально важным является вопрос, что поступает на вход системы, в каком виде предъявляются примеры понятия, включенные в состав обучающего множества. Все основные методы решения задач индуктивного построения понятий базируются на концепции признакового описания примера понятия, а именно: любой элемент обучающей выборки, который может быть представлен в системе, полностью определяется набором свойств, или признаков. Такое задание объекта исследования называется признаковым описанием объекта.

Слайд 11

Описание слайда:

Значения, которые могут принимать признаки объекта, относятся к трем основным типам: количественные или числовые, качественные и шкалированные. Значения, которые могут принимать признаки объекта, относятся к трем основным типам: количественные или числовые, качественные и шкалированные. В случае числовых признаков на множестве значений признаков может быть введена метрика, позволяющая дать количественную оценку значения признака. Часто такие значения являются результатом измерений физических величин, таких, как длина, вес, температура и др.

Слайд 12

Описание слайда:

В случае, если признаки могут иметь качественный характер, но при этом их значения можно упорядочить друг относительно друга, говорят, что такие значения образуют ранговую или порядковую шкалу. В случае, если признаки могут иметь качественный характер, но при этом их значения можно упорядочить друг относительно друга, говорят, что такие значения образуют ранговую или порядковую шкалу. Примерами таких шкал порядка могут быть ряды типа {большой, средний, маленький} или {горячий, теплый, холодный}. С помощью таких шкал порядка можно судить, какой из двух объектов является наилучшим, но нельзя оценить, сколь близки или далеки эти объекты по некоторому критерию.

Слайд 13

Описание слайда:

Третий случай заключается в том, что значения признаков имеют чисто качественный характер, связать эти значения между собой не удается. Примерами таких значений могут быть цвет = {красный, желтый, зеленый} или материал = {стекло, дерево, пластмасса, железо}. Третий случай заключается в том, что значения признаков имеют чисто качественный характер, связать эти значения между собой не удается. Примерами таких значений могут быть цвет = {красный, желтый, зеленый} или материал = {стекло, дерево, пластмасса, железо}.

Слайд 14

Описание слайда:

Слайд 15

Описание слайда:

Слайд 16

Описание слайда:

Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов. Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов. В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах.

Слайд 17

Описание слайда:

Рассмотрим пример процедуры кластерного анализа. Рассмотрим пример процедуры кластерного анализа. Допустим, мы имеем набор данных А, состоящий из 14-ти примеров, у которых имеется по два признака X и Y. Данные по ним приведены в таблице.

Слайд 18

Описание слайда:

Слайд 19

Описание слайда:

Данные в табличной форме не носят информативный характер. Представим переменные X и Y в виде диаграммы рассеивания Данные в табличной форме не носят информативный характер. Представим переменные X и Y в виде диаграммы рассеивания

Слайд 20

Описание слайда:

На рисунке мы видим несколько групп "похожих" примеров. Примеры (объекты), которые по значениям X и Y "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга. На рисунке мы видим несколько групп "похожих" примеров. Примеры (объекты), которые по значениям X и Y "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга. Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Это сходство можно "измерить", оно равно расстоянию между точками на графике. Способов определения меры расстояния между кластерами, называемой еще мерой близости, существует несколько.

Слайд 21

Описание слайда:

Наиболее распространенный способ - вычисление евклидова расстояния между двумя точками i и j на плоскости, когда известны их координаты X и Y:

Слайд 22

Описание слайда:

Наиболее распространенный способ - вычисление евклидова расстояния между двумя точками i и j на плоскости, когда известны их координаты X и Y: Наиболее распространенный способ - вычисление евклидова расстояния между двумя точками i и j на плоскости, когда известны их координаты X и Y:

Слайд 23

Описание слайда:

Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера. Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера. Центр кластера - это среднее геометрическое место точек в пространстве переменных. Радиус кластера - максимальное расстояние точек от центра кластера. Кластеры могут быть перекрывающимися. Такая ситуация возникает, когда обнаруживается перекрытие кластеров. В этом случае невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров. Такие объекты называют спорными.

Слайд 24

Описание слайда:

Спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам. Спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам. Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком.

Слайд 25

Описание слайда:

Слайд 26

Описание слайда:

Работа кластерного анализа опирается на два предположения. Первое предположение - рассматриваемые признаки объекта в принципе допускают желательное разбиение пула (совокупности) объектов на кластеры. В начале лекции мы уже упоминали о сравнимости шкал, это и есть второе предположение - правильность выбора масштаба или единиц измерения признаков. Работа кластерного анализа опирается на два предположения. Первое предположение - рассматриваемые признаки объекта в принципе допускают желательное разбиение пула (совокупности) объектов на кластеры. В начале лекции мы уже упоминали о сравнимости шкал, это и есть второе предположение - правильность выбора масштаба или единиц измерения признаков. Выбор масштаба в кластерном анализе имеет большое значение.

Слайд 27

Описание слайда:

Рассмотрим пример. Представим себе, что данные признака х в наборе данных А на два порядка больше данных признака у: значения переменной х находятся в диапазоне от 100 до 700, а значения переменной у - в диапазоне от 0 до 1. Рассмотрим пример. Представим себе, что данные признака х в наборе данных А на два порядка больше данных признака у: значения переменной х находятся в диапазоне от 100 до 700, а значения переменной у - в диапазоне от 0 до 1. Тогда, при расчете величины расстояния между точками, отражающими положение объектов в пространстве их свойств, переменная, имеющая большие значения, т.е. переменная х, будет практически полностью доминировать над переменной с малыми значениями, т.е. переменной у. Таким образом из-за неоднородности единиц измерения признаков становится невозможно корректно рассчитать расстояния между точками.

Слайд 28

Описание слайда:

Эта проблема решается при помощи предварительной стандартизации переменных. Стандартизация (standardization) или нормирование (normalization) приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отражающей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных. Эта проблема решается при помощи предварительной стандартизации переменных. Стандартизация (standardization) или нормирование (normalization) приводит значения всех преобразованных переменных к единому диапазону значений путем выражения через отношение этих значений к некой величине, отражающей определенные свойства конкретного признака. Существуют различные способы нормирования исходных данных. Наиболее распространенный: деление исходных данных на среднеквадратичное отклонение соответствующих переменных

Слайд 29

Описание слайда:

Наряду со стандартизацией переменных, существует вариант придания каждой из них определенного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов - специалистов предметной области. Полученные произведения нормированных переменных на соответствующие веса позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных Наряду со стандартизацией переменных, существует вариант придания каждой из них определенного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов - специалистов предметной области. Полученные произведения нормированных переменных на соответствующие веса позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных

Слайд 30

Описание слайда:

Методы кластерного анализа можно разделить на две группы: Методы кластерного анализа можно разделить на две группы: иерархические; неиерархические. Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие

Слайд 31

Описание слайда:

Иерархические агломеративные методы (Agglomerative Nesting, AGNES) Иерархические агломеративные методы (Agglomerative Nesting, AGNES) Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров. В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер.

Слайд 32

Описание слайда:

Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA) Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA) Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.

Слайд 33

Описание слайда:

Слайд 34

Описание слайда:

Программная реализация алгоритмов кластерного анализа широко представлена в различных инструментах Data Mining, которые позволяют решать задачи достаточно большой размерности. Например, агломеративные методы реализованы в пакете SPSS, дивизимные методы - в пакете Statgraf. Программная реализация алгоритмов кластерного анализа широко представлена в различных инструментах Data Mining, которые позволяют решать задачи достаточно большой размерности. Например, агломеративные методы реализованы в пакете SPSS, дивизимные методы - в пакете Statgraf. Иерархические методы кластеризации различаются правилами построения кластеров. В качестве правил выступают критерии, которые используются при решении вопроса о "схожести" объектов при их объединении в группу (агломеративные методы) либо разделения на группы (дивизимные методы). Иерархические методы кластерного анализа используются при небольших объемах наборов данных. Преимуществом иерархических методов кластеризации является их наглядность.

Слайд 35

Описание слайда:

Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron - "дерево"), которые являются результатом иерархического кластерного анализа. Иерархические алгоритмы связаны с построением дендрограмм (от греческого dendron - "дерево"), которые являются результатом иерархического кластерного анализа. Дендрограмма описывает близость отдельных точек и кластеров друг к другу, представляет в графическом виде последовательность объединения (разделения) кластеров.

Слайд 36

Описание слайда:

Существует много способов построения дендрограмм. В дендрограмме объекты могут располагаться вертикально или горизонтально. Пример вертикальной дендрограммы Существует много способов построения дендрограмм. В дендрограмме объекты могут располагаться вертикально или горизонтально. Пример вертикальной дендрограммы

Слайд 37

Описание слайда:

Числа 11, 10, 3 и т.д. соответствуют номерам объектов или наблюдений исходной выборки. Мы видим, что на первом шаге каждое наблюдение представляет один кластер (вертикальная линия), на втором шаге наблюдаем объединение таких наблюдений: 11 и 10; 3, 4 и 5; 8 и 9; 2 и 6. На втором шаге продолжается объединение в кластеры: наблюдения 11, 10, 3, 4, 5 и 7, 8, 9. Данный процесс продолжается до тех пор, пока все наблюдения не объединятся в один кластер. Числа 11, 10, 3 и т.д. соответствуют номерам объектов или наблюдений исходной выборки. Мы видим, что на первом шаге каждое наблюдение представляет один кластер (вертикальная линия), на втором шаге наблюдаем объединение таких наблюдений: 11 и 10; 3, 4 и 5; 8 и 9; 2 и 6. На втором шаге продолжается объединение в кластеры: наблюдения 11, 10, 3, 4, 5 и 7, 8, 9. Данный процесс продолжается до тех пор, пока все наблюдения не объединятся в один кластер.

Слайд 38

Описание слайда:

Методы объединения или связи Методы объединения или связи Когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Возникает следующий вопрос - как определить расстояния между кластерами? Существуют различные правила, называемые методами объединения или связи для двух кластеров.

Слайд 39

Описание слайда:

Метод ближнего соседа или одиночная связь. Здесь расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Этот метод позволяет выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. Метод ближнего соседа или одиночная связь. Здесь расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Этот метод позволяет выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. В результате работы этого метода кластеры представляются длинными "цепочками" или "волокнистыми" кластерами, "сцепленными вместе" только отдельными элементами, которые случайно оказались ближе остальных друг к другу.

Слайд 40

Описание слайда:

Слайд 41

Описание слайда:

Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения (Ward, 1963). В отличие от других методов кластерного анализа для оценки расстояний между кластерами, здесь используются методы дисперсионного анализа. На каждом шаге алгоритма объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров и "стремится" создавать кластеры малого размера. Метод Варда (Ward's method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения (Ward, 1963). В отличие от других методов кластерного анализа для оценки расстояний между кластерами, здесь используются методы дисперсионного анализа. На каждом шаге алгоритма объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров и "стремится" создавать кластеры малого размера.

Слайд 42

Описание слайда:

Слайд 43

Описание слайда:

Метод наиболее удаленных соседей или полная связь. Здесь расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Метод хорошо использовать, когда объекты действительно происходят из различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод не следует использовать. Метод наиболее удаленных соседей или полная связь. Здесь расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Метод хорошо использовать, когда объекты действительно происходят из различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод не следует использовать.

Слайд 44

Описание слайда:

Слайд 45

Описание слайда:

Метод невзвешенного попарного среднего (метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages, UPGMA (Sneath, Sokal, 1973)). Метод невзвешенного попарного среднего (метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages, UPGMA (Sneath, Sokal, 1973)). В качестве расстояния между двумя кластерами берется среднее расстояние между всеми парами объектов в них. Этот метод следует использовать, если объекты действительно происходят из различных "рощ", в случаях присутствия кластеров "цепочного" типа, при предположении неравных размеров кластеров.

Слайд 46

Описание слайда:

Метод взвешенного попарного среднего (метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages, WPGM A (Sneath, Sokal, 1973)). Этот метод похож на метод невзвешенного попарного среднего, разница состоит лишь в том, что здесь в качестве весового коэффициента используется размер кластера (число объектов, содержащихся в кластере). Метод взвешенного попарного среднего (метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages, WPGM A (Sneath, Sokal, 1973)). Этот метод похож на метод невзвешенного попарного среднего, разница состоит лишь в том, что здесь в качестве весового коэффициента используется размер кластера (число объектов, содержащихся в кластере). Этот метод рекомендуется использовать именно при наличии предположения о кластерах разных размеров.

Слайд 47

Описание слайда:

Невзвешенный центроидный метод (метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average (Sneath and Sokal, 1973)). Невзвешенный центроидный метод (метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average (Sneath and Sokal, 1973)). В качестве расстояния между двумя кластерами в этом методе берется расстояние между их центрами тяжести.

Слайд 48

Описание слайда:

Слайд 49

Описание слайда:

Слайд 50

Описание слайда:

Важность алгоритмов “обучения без учителя” в том, что реальные признаки, описывающие объекты распознавания, очень часто бывают именно количественными, или числовыми. Известно, что человек плохо воспринимает информацию, представленную в виде больших наборов чисел. Первым и крайне важным этапом решения задачи обобщения в таком случае будет переход от количественных признаков к признакам качественным или хотя бы к шкалируемым. Здесь большую помощь могут оказать алгоритмы рассматриваемого типа. Важность алгоритмов “обучения без учителя” в том, что реальные признаки, описывающие объекты распознавания, очень часто бывают именно количественными, или числовыми. Известно, что человек плохо воспринимает информацию, представленную в виде больших наборов чисел. Первым и крайне важным этапом решения задачи обобщения в таком случае будет переход от количественных признаков к признакам качественным или хотя бы к шкалируемым. Здесь большую помощь могут оказать алгоритмы рассматриваемого типа.

Слайд 51

Описание слайда:

Дадим более строгую формулировку задачи обучения «без учителя». Дадим более строгую формулировку задачи обучения «без учителя». Пусть обучающая выборка содержит М объектов: X = {X1,X2,…,Хn}- Каждый из этих объектов представляет собой n-мерный вектор Xi значений признаков:

Слайд 52

Описание слайда:

где xij — значение j-ro признака для i-го объекта, п — количество признаков, характеризующих объект. Признаки, используемые для описания объекта, чисто количественные, к ним применимы введенные в предыдущей главе меры близости. Требуется в соответствии с заданным критерием разделить набор X на классы, количество которых заранее неизвестно. Под критерием подразумевается мера близости всех объектов одного класса между собой. Будем считать, что работа алгоритма завершена успешно, если классы, сформированные в результате работы алгоритма, достаточно компактны и, возможно, выполнены некоторые дополнительные критерии.

Слайд 53

Описание слайда:

При решении задачи обучения «без учителя» самыми несложными являются алгоритмы, основанные на мерах близости. Для достижения цели - компактного формирования классов — введем понятие точки-прототипа, или точки в n-мерном пространстве признаков, являющейся наиболее «типичной» представительницей построенного класса. В дальнейшем расстояние от объекта до класса будет заменяться расстоянием от объекта до точки-прототипа. Точка-прототип может быть сопоставлена каждому сформированному классу, и при этом вовсе не обязательно существование реального объекта, соответствующего точке-прототипу. При решении задачи обучения «без учителя» самыми несложными являются алгоритмы, основанные на мерах близости. Для достижения цели - компактного формирования классов — введем понятие точки-прототипа, или точки в n-мерном пространстве признаков, являющейся наиболее «типичной» представительницей построенного класса. В дальнейшем расстояние от объекта до класса будет заменяться расстоянием от объекта до точки-прототипа. Точка-прототип может быть сопоставлена каждому сформированному классу, и при этом вовсе не обязательно существование реального объекта, соответствующего точке-прототипу.

Слайд 54

Описание слайда:

Алгоритм, основанный на понятии порогового расстояния Алгоритм, основанный на понятии порогового расстояния Пороговый алгоритм — один из самых несложных алгоритмов, базирующихся на понятии меры близости. Критерием отнесения объекта к классу здесь является пороговое расстояние Т. Если объект находится в пределах порогового расстояния от точки-прототипа некоторого класса, то такой объект будет отнесен к данному классу. Если исследуемый объект находится на расстоянии, превышающем Т, он становится прототипом нового класса.

Слайд 55

Описание слайда:

Самая первая точка-прототип может выбираться произвольно. Результатом работы такого алгоритма будет разбиение объектов выборки X на классы, где в каждом классе расстояние между точкой-прототипом и любым другим элементом класса не превышает Т. Пороговое расстояние Т определим как половину расстояния между двумя наиболее удаленными друг от друга точками обучающей выборки. Самая первая точка-прототип может выбираться произвольно. Результатом работы такого алгоритма будет разбиение объектов выборки X на классы, где в каждом классе расстояние между точкой-прототипом и любым другим элементом класса не превышает Т. Пороговое расстояние Т определим как половину расстояния между двумя наиболее удаленными друг от друга точками обучающей выборки.

Слайд 56

Описание слайда:

Алгоритм Алгоритм Выбрать точку-прототип первого класса (например, объект Х1 из обучающей выборки). Количество классов К положить равным 1. Обозначить точку-прототип Z1. Определить наиболее удаленный от Z1 объект Xf по условию D(Z1,Xf) = max D(Z1, Xi), где D(Z1,Xf) - расстояние между Z1 и Xf, вычисленное одним из возможных способов. Объявить Xf прототипом второго класса. Обозначить Xf как Z2. Число классов К = К + 1.

Слайд 57

Описание слайда:

Алгоритм Алгоритм 3. Определить пороговое расстояние Т = D(Z1,Z2)/2. Построить

Слайд 58

Описание слайда:

Алгоритм Алгоритм

Слайд 59

Описание слайда:

Слайд 60

Описание слайда:

Выберем в качестве точки-прототипа первого класса точку Х1 из обучающей выборки (обозначается далее Z1). В таблице представлены расстояния от этой точки до объектов Х2 — Х8. Выберем в качестве точки-прототипа первого класса точку Х1 из обучающей выборки (обозначается далее Z1). В таблице представлены расстояния от этой точки до объектов Х2 — Х8.

Слайд 61

Описание слайда:

Наиболее удаленным объектом для Z1 будет Х8. Наиболее удаленным объектом для Z1 будет Х8. Пороговое расстояние Точка Х8 становится точкой-прототипом второго класса и обозначается далее Z2. Рассматриваем точки множества

Слайд 62

Описание слайда:

Слайд 63

Описание слайда:

Слайд 64

Описание слайда:

Слайд 65

Описание слайда:

Слайд 66

Описание слайда:

К достоинствам рассмотренного алгоритма следует отнести простоту реализации и небольшой объем вычислений. К достоинствам рассмотренного алгоритма следует отнести простоту реализации и небольшой объем вычислений. Недостатки: не предусмотрено уточнение разбиения. В результате расстояние от объекта до точки-прототипа класса может оказаться больше, чем расстояние от этого объекта до точки-прототипа другого класса. Результат, кроме того, сильно зависит от порядка рассмотрения объектов X, а также от способа вычисления порогового расстояния (можно использовать и другие формулы для подсчета Т).

Слайд 67

Описание слайда:

Из этого следует, что полезно было бы использовать алгоритмы, допускающие многократную коррекцию формируемых классов, например, можно было бы менять пороговое расстояние Т и проводить многократное уточнение разбиения. Из этого следует, что полезно было бы использовать алгоритмы, допускающие многократную коррекцию формируемых классов, например, можно было бы менять пороговое расстояние Т и проводить многократное уточнение разбиения.

Слайд 68

Описание слайда:

Алгоритм MAXMIN Алгоритм MAXMIN Рассмотрим алгоритм, более эффективный по сравнению с предыдущим и являющийся улучшением порогового алгоритма. Исходными даннымы для работы алгоритма будет, как и раньше, выборка X. Объекты этой выборки следует разделить на классы, число и характеристики которых заранее неизвестны.

Слайд 69

Описание слайда:

Алгоритм MAXMIN Алгоритм MAXMIN На первом этапе алгоритма все объекты разделяются по классам на основе критерия минимального расстояния от точек-прототипов этих классов (первая точка-прототип может выбираться произвольо). Затем в каждом классе выбирается объект, наиболее удаленный от своего прототипа. Если он удален от своего прототипа на расстояние, превышающее пороговое, такой объект становится прототипом нового класса.

Слайд 70

Описание слайда:

В этом алгоритме пороговое расстояние не является фиксированным, а определяется на основе среднего расстояния между всеми точками-прототипами, то есть корректируется в процессе работы алгоритма. Если в ходе распределения объектов выборки X по классам были созданы новые прототипы, процесс распределения повторяется. Таким образом, в алгоритме MAXMIN окончательным считается разбиение, для которого в каждом классе расстояние от точки-прототипа до всех объектов этого класса не превышает финального значения порога Т. В этом алгоритме пороговое расстояние не является фиксированным, а определяется на основе среднего расстояния между всеми точками-прототипами, то есть корректируется в процессе работы алгоритма. Если в ходе распределения объектов выборки X по классам были созданы новые прототипы, процесс распределения повторяется. Таким образом, в алгоритме MAXMIN окончательным считается разбиение, для которого в каждом классе расстояние от точки-прототипа до всех объектов этого класса не превышает финального значения порога Т.

Слайд 71

Описание слайда:

Слайд 72

Описание слайда:

Алгоритм Алгоритм

Слайд 73

Описание слайда:

Алгоритм Алгоритм

Слайд 74

Описание слайда:

Рассмотрим работу алгоритма MAXMIN на примере. Как и в предыдущем случае выберем объекты, которые заданы двумя признаками. Обучающая выборка представлена на рис. Рассмотрим работу алгоритма MAXMIN на примере. Как и в предыдущем случае выберем объекты, которые заданы двумя признаками. Обучающая выборка представлена на рис.