🗊Презентация Data Mining - интеллектуальный анализ данных

Категория: Информатика
Нажмите для полного просмотра!
Data Mining - интеллектуальный анализ данных, слайд №1Data Mining - интеллектуальный анализ данных, слайд №2Data Mining - интеллектуальный анализ данных, слайд №3Data Mining - интеллектуальный анализ данных, слайд №4Data Mining - интеллектуальный анализ данных, слайд №5Data Mining - интеллектуальный анализ данных, слайд №6Data Mining - интеллектуальный анализ данных, слайд №7Data Mining - интеллектуальный анализ данных, слайд №8Data Mining - интеллектуальный анализ данных, слайд №9Data Mining - интеллектуальный анализ данных, слайд №10Data Mining - интеллектуальный анализ данных, слайд №11Data Mining - интеллектуальный анализ данных, слайд №12Data Mining - интеллектуальный анализ данных, слайд №13Data Mining - интеллектуальный анализ данных, слайд №14Data Mining - интеллектуальный анализ данных, слайд №15Data Mining - интеллектуальный анализ данных, слайд №16Data Mining - интеллектуальный анализ данных, слайд №17Data Mining - интеллектуальный анализ данных, слайд №18Data Mining - интеллектуальный анализ данных, слайд №19Data Mining - интеллектуальный анализ данных, слайд №20Data Mining - интеллектуальный анализ данных, слайд №21Data Mining - интеллектуальный анализ данных, слайд №22Data Mining - интеллектуальный анализ данных, слайд №23Data Mining - интеллектуальный анализ данных, слайд №24Data Mining - интеллектуальный анализ данных, слайд №25Data Mining - интеллектуальный анализ данных, слайд №26Data Mining - интеллектуальный анализ данных, слайд №27Data Mining - интеллектуальный анализ данных, слайд №28Data Mining - интеллектуальный анализ данных, слайд №29Data Mining - интеллектуальный анализ данных, слайд №30Data Mining - интеллектуальный анализ данных, слайд №31Data Mining - интеллектуальный анализ данных, слайд №32Data Mining - интеллектуальный анализ данных, слайд №33Data Mining - интеллектуальный анализ данных, слайд №34Data Mining - интеллектуальный анализ данных, слайд №35Data Mining - интеллектуальный анализ данных, слайд №36Data Mining - интеллектуальный анализ данных, слайд №37Data Mining - интеллектуальный анализ данных, слайд №38Data Mining - интеллектуальный анализ данных, слайд №39Data Mining - интеллектуальный анализ данных, слайд №40Data Mining - интеллектуальный анализ данных, слайд №41Data Mining - интеллектуальный анализ данных, слайд №42Data Mining - интеллектуальный анализ данных, слайд №43Data Mining - интеллектуальный анализ данных, слайд №44Data Mining - интеллектуальный анализ данных, слайд №45Data Mining - интеллектуальный анализ данных, слайд №46Data Mining - интеллектуальный анализ данных, слайд №47Data Mining - интеллектуальный анализ данных, слайд №48Data Mining - интеллектуальный анализ данных, слайд №49Data Mining - интеллектуальный анализ данных, слайд №50Data Mining - интеллектуальный анализ данных, слайд №51Data Mining - интеллектуальный анализ данных, слайд №52Data Mining - интеллектуальный анализ данных, слайд №53Data Mining - интеллектуальный анализ данных, слайд №54Data Mining - интеллектуальный анализ данных, слайд №55Data Mining - интеллектуальный анализ данных, слайд №56Data Mining - интеллектуальный анализ данных, слайд №57Data Mining - интеллектуальный анализ данных, слайд №58Data Mining - интеллектуальный анализ данных, слайд №59Data Mining - интеллектуальный анализ данных, слайд №60Data Mining - интеллектуальный анализ данных, слайд №61Data Mining - интеллектуальный анализ данных, слайд №62Data Mining - интеллектуальный анализ данных, слайд №63Data Mining - интеллектуальный анализ данных, слайд №64Data Mining - интеллектуальный анализ данных, слайд №65Data Mining - интеллектуальный анализ данных, слайд №66Data Mining - интеллектуальный анализ данных, слайд №67Data Mining - интеллектуальный анализ данных, слайд №68Data Mining - интеллектуальный анализ данных, слайд №69Data Mining - интеллектуальный анализ данных, слайд №70Data Mining - интеллектуальный анализ данных, слайд №71Data Mining - интеллектуальный анализ данных, слайд №72Data Mining - интеллектуальный анализ данных, слайд №73Data Mining - интеллектуальный анализ данных, слайд №74Data Mining - интеллектуальный анализ данных, слайд №75Data Mining - интеллектуальный анализ данных, слайд №76Data Mining - интеллектуальный анализ данных, слайд №77Data Mining - интеллектуальный анализ данных, слайд №78Data Mining - интеллектуальный анализ данных, слайд №79Data Mining - интеллектуальный анализ данных, слайд №80Data Mining - интеллектуальный анализ данных, слайд №81Data Mining - интеллектуальный анализ данных, слайд №82Data Mining - интеллектуальный анализ данных, слайд №83Data Mining - интеллектуальный анализ данных, слайд №84Data Mining - интеллектуальный анализ данных, слайд №85Data Mining - интеллектуальный анализ данных, слайд №86Data Mining - интеллектуальный анализ данных, слайд №87Data Mining - интеллектуальный анализ данных, слайд №88Data Mining - интеллектуальный анализ данных, слайд №89Data Mining - интеллектуальный анализ данных, слайд №90Data Mining - интеллектуальный анализ данных, слайд №91Data Mining - интеллектуальный анализ данных, слайд №92Data Mining - интеллектуальный анализ данных, слайд №93Data Mining - интеллектуальный анализ данных, слайд №94Data Mining - интеллектуальный анализ данных, слайд №95Data Mining - интеллектуальный анализ данных, слайд №96Data Mining - интеллектуальный анализ данных, слайд №97Data Mining - интеллектуальный анализ данных, слайд №98Data Mining - интеллектуальный анализ данных, слайд №99Data Mining - интеллектуальный анализ данных, слайд №100Data Mining - интеллектуальный анализ данных, слайд №101Data Mining - интеллектуальный анализ данных, слайд №102Data Mining - интеллектуальный анализ данных, слайд №103Data Mining - интеллектуальный анализ данных, слайд №104Data Mining - интеллектуальный анализ данных, слайд №105Data Mining - интеллектуальный анализ данных, слайд №106Data Mining - интеллектуальный анализ данных, слайд №107Data Mining - интеллектуальный анализ данных, слайд №108Data Mining - интеллектуальный анализ данных, слайд №109Data Mining - интеллектуальный анализ данных, слайд №110Data Mining - интеллектуальный анализ данных, слайд №111Data Mining - интеллектуальный анализ данных, слайд №112Data Mining - интеллектуальный анализ данных, слайд №113Data Mining - интеллектуальный анализ данных, слайд №114Data Mining - интеллектуальный анализ данных, слайд №115Data Mining - интеллектуальный анализ данных, слайд №116Data Mining - интеллектуальный анализ данных, слайд №117Data Mining - интеллектуальный анализ данных, слайд №118Data Mining - интеллектуальный анализ данных, слайд №119Data Mining - интеллектуальный анализ данных, слайд №120Data Mining - интеллектуальный анализ данных, слайд №121Data Mining - интеллектуальный анализ данных, слайд №122Data Mining - интеллектуальный анализ данных, слайд №123Data Mining - интеллектуальный анализ данных, слайд №124Data Mining - интеллектуальный анализ данных, слайд №125Data Mining - интеллектуальный анализ данных, слайд №126Data Mining - интеллектуальный анализ данных, слайд №127Data Mining - интеллектуальный анализ данных, слайд №128Data Mining - интеллектуальный анализ данных, слайд №129Data Mining - интеллектуальный анализ данных, слайд №130Data Mining - интеллектуальный анализ данных, слайд №131Data Mining - интеллектуальный анализ данных, слайд №132Data Mining - интеллектуальный анализ данных, слайд №133Data Mining - интеллектуальный анализ данных, слайд №134Data Mining - интеллектуальный анализ данных, слайд №135Data Mining - интеллектуальный анализ данных, слайд №136Data Mining - интеллектуальный анализ данных, слайд №137Data Mining - интеллектуальный анализ данных, слайд №138Data Mining - интеллектуальный анализ данных, слайд №139Data Mining - интеллектуальный анализ данных, слайд №140Data Mining - интеллектуальный анализ данных, слайд №141Data Mining - интеллектуальный анализ данных, слайд №142Data Mining - интеллектуальный анализ данных, слайд №143Data Mining - интеллектуальный анализ данных, слайд №144Data Mining - интеллектуальный анализ данных, слайд №145Data Mining - интеллектуальный анализ данных, слайд №146Data Mining - интеллектуальный анализ данных, слайд №147Data Mining - интеллектуальный анализ данных, слайд №148

Содержание

Вы можете ознакомиться и скачать презентацию на тему Data Mining - интеллектуальный анализ данных. Доклад-сообщение содержит 148 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





 
Что такое Data Mining?
Описание слайда:
  Что такое Data Mining?

Слайд 2





Что такое Data Mining?

В литературе переводится по-разному
Добыча данных (калька)
Интеллектуальный анализ данных (а бывает неинтеллектуальный?)
Искусственный интеллект (перевод в стиле школы времен АСУ)
Поиск закономерностей
...
Описание слайда:
Что такое Data Mining? В литературе переводится по-разному Добыча данных (калька) Интеллектуальный анализ данных (а бывает неинтеллектуальный?) Искусственный интеллект (перевод в стиле школы времен АСУ) Поиск закономерностей ...

Слайд 3






Независимо от перевода смысл одинаков (в большинстве случаев):
Это средство превратить данные в знания
Мало прока от строки в таблице, говорящей, что в день A клиент B приобрел товар C в магазине D на сумму ... в кол-ве ... и т.д.
Однако просмотрев миллионы подобных строк можно заметить, например:
что товар С в магазине D расходится лучше, чем в других торговых точках, 
что клиент B проявляет покупательскую активность в дни А
что товар C1 продается в основном с товаром С
...
Эти знания уже можно непосредственно использовать в бизнесе
Описание слайда:
Независимо от перевода смысл одинаков (в большинстве случаев): Это средство превратить данные в знания Мало прока от строки в таблице, говорящей, что в день A клиент B приобрел товар C в магазине D на сумму ... в кол-ве ... и т.д. Однако просмотрев миллионы подобных строк можно заметить, например: что товар С в магазине D расходится лучше, чем в других торговых точках, что клиент B проявляет покупательскую активность в дни А что товар C1 продается в основном с товаром С ... Эти знания уже можно непосредственно использовать в бизнесе

Слайд 4





Почему мы сегодня говорим о технологии Data Mining?
За последние два десятилетия реляционные БД на предприятиях накопили грандиозные объемы данных в самых различных областях и приложениях
ERP, CRM, Inventory, финансы, ...
Просто журналы посещений, наконец
Для чего реально использовались эти данные?
Выпустили пару раз отчетность на их основе, потом сагрегировали, заархивировали и забыли?
Лежат мертвым грузом вместо того, чтобы работать и приносить прибыль
Data Mining – средство их «оживить» и заставить работать
Описание слайда:
Почему мы сегодня говорим о технологии Data Mining? За последние два десятилетия реляционные БД на предприятиях накопили грандиозные объемы данных в самых различных областях и приложениях ERP, CRM, Inventory, финансы, ... Просто журналы посещений, наконец Для чего реально использовались эти данные? Выпустили пару раз отчетность на их основе, потом сагрегировали, заархивировали и забыли? Лежат мертвым грузом вместо того, чтобы работать и приносить прибыль Data Mining – средство их «оживить» и заставить работать

Слайд 5






Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.
Описание слайда:
Data Mining переводится как "добыча" или "раскопка данных". Нередко рядом с Data Mining встречаются слова "обнаружение знаний в базах данных" (knowledge discovery in databases) и "интеллектуальный анализ данных". Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

Слайд 6






Данные имеют неограниченный объем 
Данные являются разнородными (количественными,
 качественными, текстовыми) 
Результаты должны быть конкретны и понятны 
Инструменты для обработки сырых данных должны быть  просты в использовании
Описание слайда:
Данные имеют неограниченный объем Данные являются разнородными (количественными, качественными, текстовыми) Результаты должны быть конкретны и понятны Инструменты для обработки сырых данных должны быть просты в использовании

Слайд 7


Data Mining - интеллектуальный анализ данных, слайд №7
Описание слайда:

Слайд 8


Data Mining - интеллектуальный анализ данных, слайд №8
Описание слайда:

Слайд 9


Data Mining - интеллектуальный анализ данных, слайд №9
Описание слайда:

Слайд 10





Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования. 
Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования. 
Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).
Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).
Описание слайда:
Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования. Data Mining - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования. Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute). Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).

Слайд 11





Три принципа в основе DM
Иными словами, Data Mining – это анализ данных с целью отыскания в них типовых образцов или стереотипных изменений, скрытых от нас по причине невозможности держать в голове такое количество данных и анализировать такое количество взаимосвязей между ними
Описание слайда:
Три принципа в основе DM Иными словами, Data Mining – это анализ данных с целью отыскания в них типовых образцов или стереотипных изменений, скрытых от нас по причине невозможности держать в голове такое количество данных и анализировать такое количество взаимосвязей между ними

Слайд 12






Задачи Data Mining
Описание слайда:
Задачи Data Mining

Слайд 13





1. Классификация (Classification)

Наиболее простая и распространенная задача Data Mining. 
В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу.
Методы решения. Для решения задачи классификации могут использоваться методы:
ближайшего соседа (Nearest Neighbor); 
k-ближайшего соседа (k-Nearest Neighbor);
байесовские сети (Bayesian Networks); 
индукция деревьев решений; 
нейронные сети (neural networks).
Описание слайда:
1. Классификация (Classification) Наиболее простая и распространенная задача Data Mining. В результате решения задачи классификации обнаруживаются признаки, которые характеризуют группы объектов исследуемого набора данных - классы; по этим признакам новый объект можно отнести к тому или иному классу. Методы решения. Для решения задачи классификации могут использоваться методы: ближайшего соседа (Nearest Neighbor); k-ближайшего соседа (k-Nearest Neighbor); байесовские сети (Bayesian Networks); индукция деревьев решений; нейронные сети (neural networks).

Слайд 14





2. Кластеризация (Clustering)

Кластеризация является логическим продолжением идеи классификации. 
Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены.
 Результатом кластеризации является разбиение объектов на группы.
Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена.
Описание слайда:
2. Кластеризация (Clustering) Кластеризация является логическим продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы. Пример метода решения задачи кластеризации: обучение "без учителя" особого вида нейронных сетей - самоорганизующихся карт Кохонена.

Слайд 15





3. Ассоциация (Associations)

В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных.
Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.
Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori.
Описание слайда:
3. Ассоциация (Associations) В ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Отличие ассоциации от двух предыдущих задач Data Mining: поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно. Наиболее известный алгоритм решения задачи поиска ассоциативных правил - алгоритм Apriori.

Слайд 16





4.  Последовательность (Sequence), или последовательная ассоциация (sequential association)
4.  Последовательность (Sequence), или последовательная ассоциация (sequential association)
Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий.
Описание слайда:
4. Последовательность (Sequence), или последовательная ассоциация (sequential association) 4. Последовательность (Sequence), или последовательная ассоциация (sequential association) Последовательность позволяет найти временные закономерности между транзакциями. Задача последовательности подобна ассоциации, но ее целью является установление закономерностей не между одновременно наступающими событиями, а между событиями, связанными во времени (т.е. происходящими с некоторым определенным интервалом во времени). Другими словами, последовательность определяется высокой вероятностью цепочки связанных во времени событий.

Слайд 17





Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю.
Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю.
 Эту задачу Data Mining также называют задачей нахождения
последовательных шаблонов (sequential pattern).
Правило последовательности: после события X через определенное время произойдет событие Y.
Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель  приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается  телевизор. 
Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (Customer Lifecycle Management).
Описание слайда:
Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю. Фактически, ассоциация является частным случаем последовательности с временным лагом, равным нулю. Эту задачу Data Mining также называют задачей нахождения последовательных шаблонов (sequential pattern). Правило последовательности: после события X через определенное время произойдет событие Y. Пример. После покупки квартиры жильцы в 60% случаев в течение двух недель приобретают холодильник, а в течение двух месяцев в 50% случаев приобретается телевизор. Решение данной задачи широко применяется в маркетинге и менеджменте, например, при управлении циклом работы с клиентом (Customer Lifecycle Management).

Слайд 18





5.Прогнозирование (Forecasting)

В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.
Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.
Описание слайда:
5.Прогнозирование (Forecasting) В результате решения задачи прогнозирования на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей. Для решения таких задач широко применяются методы математической статистики, нейронные сети и др.

Слайд 19





6. Определение отклонений или выбросов (Deviation Detection), анализ отклонений или
выбросов

Цель решения данной задачи - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.
Описание слайда:
6. Определение отклонений или выбросов (Deviation Detection), анализ отклонений или выбросов Цель решения данной задачи - обнаружение и анализ данных, наиболее отличающихся от общего множества данных, выявление так называемых нехарактерных шаблонов.

Слайд 20





7. Оценивание (Estimation)
7. Оценивание (Estimation)
Задача оценивания сводится к предсказанию непрерывных значений признака.
8.  Анализ связей (Link Analysis) - задача нахождения зависимостей в наборе данных.
9. Визуализация (Visualization, Graph Mining)
В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие
закономерностей в данных.
Пример методов визуализации - представление данных в 2-D и 3-D измерениях.
10.Подведение итогов (Summarization)
 - задача, цель которой - описание конкретных групп объектов из анализируемого набора данных.
Описание слайда:
7. Оценивание (Estimation) 7. Оценивание (Estimation) Задача оценивания сводится к предсказанию непрерывных значений признака. 8. Анализ связей (Link Analysis) - задача нахождения зависимостей в наборе данных. 9. Визуализация (Visualization, Graph Mining) В результате визуализации создается графический образ анализируемых данных. Для решения задачи визуализации используются графические методы, показывающие наличие закономерностей в данных. Пример методов визуализации - представление данных в 2-D и 3-D измерениях. 10.Подведение итогов (Summarization) - задача, цель которой - описание конкретных групп объектов из анализируемого набора данных.

Слайд 21





Классификация задач Data Mining

Согласно классификации по стратегиям, задачи Data Mining подразделяются на следующие группы:
· обучение с учителем;
· обучение без учителя;
· другие.
Задачи Data Mining, в зависимости от используемых моделей, могут быть
дескриптивными и прогнозирующими.
Описание слайда:
Классификация задач Data Mining Согласно классификации по стратегиям, задачи Data Mining подразделяются на следующие группы: · обучение с учителем; · обучение без учителя; · другие. Задачи Data Mining, в зависимости от используемых моделей, могут быть дескриптивными и прогнозирующими.

Слайд 22






Применение Data Mining для решения бизнес-задач. 
  Основные направления: банковское  дело, финансы, страхование, CRM, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие.
Применение Data Mining для решения задач государственного уровня. Основные  направления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом.
Применение Data Mining для научных исследований. Основные направления: медицина,  биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия, исследования, касающиеся наркотической зависимости, и другие.
Применение Data Mining для решения Web-задач. Основные направления: поисковые  машины (search engines), счетчики и другие
Описание слайда:
Применение Data Mining для решения бизнес-задач. Основные направления: банковское дело, финансы, страхование, CRM, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие. Применение Data Mining для решения задач государственного уровня. Основные направления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом. Применение Data Mining для научных исследований. Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия, исследования, касающиеся наркотической зависимости, и другие. Применение Data Mining для решения Web-задач. Основные направления: поисковые машины (search engines), счетчики и другие

Слайд 23





Банковское  дело
Описание слайда:
Банковское дело

Слайд 24






Страхование
Электронная коммерция
Описание слайда:
Страхование Электронная коммерция

Слайд 25





Основные задачи Data Mining в промышленном производстве :

· комплексный системный анализ производственных ситуаций;
· краткосрочный и долгосрочный прогноз развития производственных ситуаций;
· выработка вариантов оптимизационных решений;
· прогнозирование качества изделия в зависимости от некоторых параметров
технологического процесса;
· обнаружение скрытых тенденций и закономерностей развития производственных
процессов;
· прогнозирование закономерностей развития производственных процессов;
· обнаружение скрытых факторов влияния;
· обнаружение и идентификация ранее неизвестных взаимосвязей между
производственными параметрами и факторами влияния;
· анализ среды взаимодействия производственных процессов и прогнозирование
изменения ее характеристик;
· выработку оптимизационных рекомендаций по управлению производственными
процессами;
· визуализацию результатов анализа, подготовку предварительных отчетов и проектов
допустимых решений с оценками достоверности и эффективности возможных реализаций.
Описание слайда:
Основные задачи Data Mining в промышленном производстве : · комплексный системный анализ производственных ситуаций; · краткосрочный и долгосрочный прогноз развития производственных ситуаций; · выработка вариантов оптимизационных решений; · прогнозирование качества изделия в зависимости от некоторых параметров технологического процесса; · обнаружение скрытых тенденций и закономерностей развития производственных процессов; · прогнозирование закономерностей развития производственных процессов; · обнаружение скрытых факторов влияния; · обнаружение и идентификация ранее неизвестных взаимосвязей между производственными параметрами и факторами влияния; · анализ среды взаимодействия производственных процессов и прогнозирование изменения ее характеристик; · выработку оптимизационных рекомендаций по управлению производственными процессами; · визуализацию результатов анализа, подготовку предварительных отчетов и проектов допустимых решений с оценками достоверности и эффективности возможных реализаций.

Слайд 26





Вот список задач фондового рынка, которые можно решать при помощи технологии Data  Mining :

· прогнозирование будущих значений финансовых инструментов и индикаторов по их  прошлым значениям;
· прогноз тренда (будущего направления движения - рост, падение) финансового инструмента и его силы (сильный, умеренно сильный и т.д.);
· выделение кластерной структуры рынка, отрасли, сектора по некоторому набору характеристик;
· динамическое управление портфелем;
· прогноз волатильности;
· оценка рисков;
· предсказание наступления кризиса и прогноз его развития;
· выбор активов и др.
Описание слайда:
Вот список задач фондового рынка, которые можно решать при помощи технологии Data Mining : · прогнозирование будущих значений финансовых инструментов и индикаторов по их прошлым значениям; · прогноз тренда (будущего направления движения - рост, падение) финансового инструмента и его силы (сильный, умеренно сильный и т.д.); · выделение кластерной структуры рынка, отрасли, сектора по некоторому набору характеристик; · динамическое управление портфелем; · прогноз волатильности; · оценка рисков; · предсказание наступления кризиса и прогноз его развития; · выбор активов и др.

Слайд 27





Web Mining

Web Mining можно перевести как "добыча данных в Web". 
Здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining.
Описание слайда:
Web Mining Web Mining можно перевести как "добыча данных в Web". Здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining.

Слайд 28





Web Content Mining
В этом направлении, в свою очередь, выделяют два подхода: 
подход, основанный на агентах,
подход, основанный на базах данных.
Описание слайда:
Web Content Mining В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, подход, основанный на базах данных.

Слайд 29






Подход, основанный на агентах (Agent Based Approach), включает такие системы:
· интеллектуальные поисковые агенты (Intelligent Search Agents);
· фильтрация информации / классификация;
· персонифицированные агенты сети.
Описание слайда:
Подход, основанный на агентах (Agent Based Approach), включает такие системы: · интеллектуальные поисковые агенты (Intelligent Search Agents); · фильтрация информации / классификация; · персонифицированные агенты сети.

Слайд 30





Примеры систем интеллектуальных агентов поиска:

· Harvest (Brown и др., 1994),
· FAQ-Finder (Hammond и др., 1995),
· Information Manifold (Kirk и др., 1995),
· OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
· ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
· ShopBot (Doorenbos и др., 1996).
Описание слайда:
Примеры систем интеллектуальных агентов поиска: · Harvest (Brown и др., 1994), · FAQ-Finder (Hammond и др., 1995), · Information Manifold (Kirk и др., 1995), · OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997), · ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995), · ShopBot (Doorenbos и др., 1996).

Слайд 31






Подход, основанный на базах данных (Database Approach), включает системы:
· многоуровневые базы данных;
· системы web-запросов (Web Query Systems);
Описание слайда:
Подход, основанный на базах данных (Database Approach), включает системы: · многоуровневые базы данных; · системы web-запросов (Web Query Systems);

Слайд 32





Примеры систем web-запросов:

· W3QL (Konopnicki и Shmueli, 1995),
· WebLog (Lakshmanan и др., 1996),
· Lorel (Quass и др., 1995),
· UnQL (Buneman и др., 1995 and 1996),
· TSIMMIS (Chawathe и др.., 1994).
Описание слайда:
Примеры систем web-запросов: · W3QL (Konopnicki и Shmueli, 1995), · WebLog (Lakshmanan и др., 1996), · Lorel (Quass и др., 1995), · UnQL (Buneman и др., 1995 and 1996), · TSIMMIS (Chawathe и др.., 1994).

Слайд 33






Второе направление Web Usage Mining подразумевает обнаружение закономерностей в действиях пользователя Web-узла или их группы.
Анализируется следующая информация:
· какие страницы просматривал пользователь;
· какова последовательность просмотра страниц.
Описание слайда:
Второе направление Web Usage Mining подразумевает обнаружение закономерностей в действиях пользователя Web-узла или их группы. Анализируется следующая информация: · какие страницы просматривал пользователь; · какова последовательность просмотра страниц.

Слайд 34






Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.
Web Usage Mining включает следующие составляющие:
· предварительная обработка;
· операционная идентификация;
· инструменты обнаружения шаблонов;
· инструменты анализа шаблонов.
Описание слайда:
Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла. Web Usage Mining включает следующие составляющие: · предварительная обработка; · операционная идентификация; · инструменты обнаружения шаблонов; · инструменты анализа шаблонов.

Слайд 35





Плюсы и минусы Web Usage Mining

Плюсы
Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений[13]:
Эта технология позволила электронной торговле создать персонализированный маркетинг, который в конечном итоге привел к увеличению объемов торговли.
Государственные учреждения используют эту технологию для классификации угроз и для борьбы с терроризмом.
Прогнозирование возможностей горнодобывающей промышленности может принести пользу обществу путём выявления преступной деятельности.
Компании могут установить более тесные взаимоотношениями с клиентами, предоставляя им именно то, что им нужно.
Компании могут лучше понять потребности клиента и быстрее реагировать на потребности клиентов.
Компании могут найти, привлечь и удержать клиентов, сэкономить на себестоимости продукции за счет использования приобретенного понимания требований заказчика.
Компании повышают рентабельность за счет целевого ценообразования на основе созданных профилей.
Описание слайда:
Плюсы и минусы Web Usage Mining Плюсы Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений[13]: Эта технология позволила электронной торговле создать персонализированный маркетинг, который в конечном итоге привел к увеличению объемов торговли. Государственные учреждения используют эту технологию для классификации угроз и для борьбы с терроризмом. Прогнозирование возможностей горнодобывающей промышленности может принести пользу обществу путём выявления преступной деятельности. Компании могут установить более тесные взаимоотношениями с клиентами, предоставляя им именно то, что им нужно. Компании могут лучше понять потребности клиента и быстрее реагировать на потребности клиентов. Компании могут найти, привлечь и удержать клиентов, сэкономить на себестоимости продукции за счет использования приобретенного понимания требований заказчика. Компании повышают рентабельность за счет целевого ценообразования на основе созданных профилей.

Слайд 36





Минусы
Минусы
Самый критикуемый этический вопрос, связанный с Web Usage Mining, является вопрос о вторжении в частную жизнь. Защита считается потерянной, когда полученная информация об отдельном пользователе используется или распространяется без их ведома и согласия. Полученные данные будут проанализированы и кластеризованы в форме профилей или будут анонимными до кластеризации без создания личных профилей. Таким образом, эти приложения де-индивидуализируют пользователя, судя о них только по их щелчками мыши[14].
Другой важной проблемой является то, что компании по сбору данных могут их использовать для совершенно разных целей, что существенно нарушает интересы пользователей.
Растущая тенденция использования персональных данных в качестве товара призывает владельцев веб-сайтов к торговле этими данными, расположенными на их сайтах.
Некоторые алгоритмы интеллектуального анализа могут использовать спорные атрибуты, как пол, раса, религия или сексуальная ориентация. Эти методы могут быть против анти-дискриминационного законодательства.
Описание слайда:
Минусы Минусы Самый критикуемый этический вопрос, связанный с Web Usage Mining, является вопрос о вторжении в частную жизнь. Защита считается потерянной, когда полученная информация об отдельном пользователе используется или распространяется без их ведома и согласия. Полученные данные будут проанализированы и кластеризованы в форме профилей или будут анонимными до кластеризации без создания личных профилей. Таким образом, эти приложения де-индивидуализируют пользователя, судя о них только по их щелчками мыши[14]. Другой важной проблемой является то, что компании по сбору данных могут их использовать для совершенно разных целей, что существенно нарушает интересы пользователей. Растущая тенденция использования персональных данных в качестве товара призывает владельцев веб-сайтов к торговле этими данными, расположенными на их сайтах. Некоторые алгоритмы интеллектуального анализа могут использовать спорные атрибуты, как пол, раса, религия или сексуальная ориентация. Эти методы могут быть против анти-дискриминационного законодательства.

Слайд 37






Задачи Web Mining можно подразделить на такие категории:
· Предварительная обработка данных для Web Mining.
· Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил,
временных последовательностей, классификации и кластеризации;
· Анализ полученного знания.
Описание слайда:
Задачи Web Mining можно подразделить на такие категории: · Предварительная обработка данных для Web Mining. · Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации; · Анализ полученного знания.

Слайд 38





Text Mining

Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний в тексте).
В отличие от технологии Data Mining, которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации.
Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки в строке
Описание слайда:
Text Mining Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний в тексте). В отличие от технологии Data Mining, которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации. Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки в строке

Слайд 39






Извлечение понятий
Ответ на запросы
Тематическое индексирование
Поиск по ключевым словам
Описание слайда:
Извлечение понятий Ответ на запросы Тематическое индексирование Поиск по ключевым словам

Слайд 40





Call Mining

Среди разработчиков новой технологии Call Mining ("добыча" и анализ звонков) -
компании CallMiner, Nexidia, ScanSoft, Witness Systems. 
В технологии Call Mining разработано два подхода
 на основе преобразования речи в текст
на базе фонетического анализа.
Описание слайда:
Call Mining Среди разработчиков новой технологии Call Mining ("добыча" и анализ звонков) - компании CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода на основе преобразования речи в текст на базе фонетического анализа.

Слайд 41


Data Mining - интеллектуальный анализ данных, слайд №41
Описание слайда:

Слайд 42


Data Mining - интеллектуальный анализ данных, слайд №42
Описание слайда:

Слайд 43


Data Mining - интеллектуальный анализ данных, слайд №43
Описание слайда:

Слайд 44





1. Свободный поиск (Discovery)

На стадии свободного поиска осуществляется исследование набора данных с целью поиска скрытых закономерностей. 
Предварительные гипотезы относительно вида
закономерностей здесь не определяются.
Закономерность (law) - существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов
Описание слайда:
1. Свободный поиск (Discovery) На стадии свободного поиска осуществляется исследование набора данных с целью поиска скрытых закономерностей. Предварительные гипотезы относительно вида закономерностей здесь не определяются. Закономерность (law) - существенная и постоянно повторяющаяся взаимосвязь, определяющая этапы и формы процесса становления, развития различных явлений или процессов

Слайд 45


Data Mining - интеллектуальный анализ данных, слайд №45
Описание слайда:

Слайд 46






"Если возраст < 20 лет и желаемый уровень вознаграждения > 700 условных единиц, то в 75% случаев соискатель ищет работу программиста" 
или 
"Если возраст >35 лет и желаемый уровень  вознаграждения > 1200 условных единиц, то в 90% случаев соискатель ищет руководящую работу". 
Целевой переменной в описанных правилах выступает профессия.
При задании другой целевой переменной, например, возраста, получаем такие правила:
"Если соискатель ищет руководящую работу и его стаж > 15 лет, то возраст соискателя > 35 лет в 65 % случаев".
Описание слайда:
"Если возраст < 20 лет и желаемый уровень вознаграждения > 700 условных единиц, то в 75% случаев соискатель ищет работу программиста" или "Если возраст >35 лет и желаемый уровень вознаграждения > 1200 условных единиц, то в 90% случаев соискатель ищет руководящую работу". Целевой переменной в описанных правилах выступает профессия. При задании другой целевой переменной, например, возраста, получаем такие правила: "Если соискатель ищет руководящую работу и его стаж > 15 лет, то возраст соискателя > 35 лет в 65 % случаев".

Слайд 47






Описанные действия, в рамках стадии свободного поиска, выполняются при помощи :
· индукции правил условной логики (задачи классификации и кластеризации, описание в компактной форме близких или схожих групп объектов);
· индукции правил ассоциативной логики (задачи ассоциации и последовательности и извлекаемая при их помощи информация);
· определения трендов и колебаний (исходный этап задачи прогнозирования).
Описание слайда:
Описанные действия, в рамках стадии свободного поиска, выполняются при помощи : · индукции правил условной логики (задачи классификации и кластеризации, описание в компактной форме близких или схожих групп объектов); · индукции правил ассоциативной логики (задачи ассоциации и последовательности и извлекаемая при их помощи информация); · определения трендов и колебаний (исходный этап задачи прогнозирования).

Слайд 48





2. Прогностическое моделирование (Predictive Modeling)
Описание слайда:
2. Прогностическое моделирование (Predictive Modeling)

Слайд 49






Зная, что соискатель ищет руководящую работу и его стаж > 15 лет, на 65 % можно быть уверенным в том, что возраст соискателя > 35 лет. 
Или же, если возраст соискателя > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, на 90% можно быть уверенным в том, что соискатель ищет руководящую работу.
Описание слайда:
Зная, что соискатель ищет руководящую работу и его стаж > 15 лет, на 65 % можно быть уверенным в том, что возраст соискателя > 35 лет. Или же, если возраст соискателя > 35 лет и желаемый уровень вознаграждения > 1200 условных единиц, на 90% можно быть уверенным в том, что соискатель ищет руководящую работу.

Слайд 50





3. Анализ исключений (forensic analysis)
Описание слайда:
3. Анализ исключений (forensic analysis)

Слайд 51





Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных 
Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. 
Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка.
Описание слайда:
Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие из таких систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в каждой системе имеется какая-то ключевая компонента, на которую делается главная ставка.

Слайд 52


Data Mining - интеллектуальный анализ данных, слайд №52
Описание слайда:

Слайд 53





Статистические пакеты
Описание слайда:
Статистические пакеты

Слайд 54





Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами.
Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами.
В качестве примеров наиболее мощных и распространенных статистических пакетов можно назвать SAS (компания SAS Institute), SPSS (SPSS), STATGRAPICS (Manugistics),STATISTICA, STADIA и другие.
Описание слайда:
Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. Есть еще более серьезный принципиальный недостаток статистических пакетов, ограничивающий их применение в Data Mining. Большинство методов, входящих в состав пакетов опираются на статистическую парадигму, в которой главными фигурантами служат усредненные характеристики выборки. А эти характеристики, как указывалось выше, при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. В качестве примеров наиболее мощных и распространенных статистических пакетов можно назвать SAS (компания SAS Institute), SPSS (SPSS), STATGRAPICS (Manugistics),STATISTICA, STADIA и другие.

Слайд 55





Пакеты прикладных программ "Статистические методы анализа»
Пакеты прикладных программ "Статистические методы анализа»
МЕЗОЗАВР - "Статистические методы анализа временных рядов" 

МЕЗОЗАВР-ЭКОНОМЕТРИКА 

САНИ - "Статистические методы анализа нечисловой информации" 

КЛАССМАСТЕР - "Статистические методы классификации и дискриминантного анализа"
Описание слайда:
Пакеты прикладных программ "Статистические методы анализа» Пакеты прикладных программ "Статистические методы анализа» МЕЗОЗАВР - "Статистические методы анализа временных рядов" МЕЗОЗАВР-ЭКОНОМЕТРИКА САНИ - "Статистические методы анализа нечисловой информации" КЛАССМАСТЕР - "Статистические методы классификации и дискриминантного анализа"

Слайд 56


Data Mining - интеллектуальный анализ данных, слайд №56
Описание слайда:

Слайд 57





Деревья решений (decision trees)
Деревья решения являются одним из наиболее популярных подходов к решению задач Data Mining.
Иногда этот метод Data Mining также называют деревьями решающих правил, деревьями классификации и регрессии.
Как видно из последнего названия, при помощи данного метода решаются задачи классификации и прогнозирования.
Если зависимая, т.е. целевая переменная принимает дискретные значения, при помощи метода дерева решений решается задача классификации.
Описание слайда:
Деревья решений (decision trees) Деревья решения являются одним из наиболее популярных подходов к решению задач Data Mining. Иногда этот метод Data Mining также называют деревьями решающих правил, деревьями классификации и регрессии. Как видно из последнего названия, при помощи данного метода решаются задачи классификации и прогнозирования. Если зависимая, т.е. целевая переменная принимает дискретные значения, при помощи метода дерева решений решается задача классификации.

Слайд 58





Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных, т.е. решает задачу численного прогнозирования.
Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных, т.е. решает задачу численного прогнозирования.
Впервые деревья решений были предложены Ховилендом и Хантом (Hoveland, Hunt) в конце 50-х годов прошлого века. 
В наиболее простом виде дерево решений - это способ представления правил в иерархической, последовательной структуре. Основа такой структуры - ответы "Да" или "Нет" на ряд вопросов
Описание слайда:
Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных, т.е. решает задачу численного прогнозирования. Если же зависимая переменная принимает непрерывные значения, то дерево решений устанавливает зависимость этой переменной от независимых переменных, т.е. решает задачу численного прогнозирования. Впервые деревья решений были предложены Ховилендом и Хантом (Hoveland, Hunt) в конце 50-х годов прошлого века. В наиболее простом виде дерево решений - это способ представления правил в иерархической, последовательной структуре. Основа такой структуры - ответы "Да" или "Нет" на ряд вопросов

Слайд 59


Data Mining - интеллектуальный анализ данных, слайд №59
Описание слайда:

Слайд 60





Они создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющую вид дерева. 
Они создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющую вид дерева. 
Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. 
Вопросы имеют вид "значение параметра A больше x?". Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный — то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.
Описание слайда:
Они создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющую вид дерева. Они создают иерархическую структуру классифицирующих правил типа "ЕСЛИ... ТО..." (if-then), имеющую вид дерева. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют вид "значение параметра A больше x?". Если ответ положительный, осуществляется переход к правому узлу следующего уровня, если отрицательный — то к левому узлу; затем снова следует вопрос, связанный с соответствующим узлом.

Слайд 61






В рассмотренном примере решается задача бинарной классификации, т.е. создается дихотомическая классификационная модель. Пример демонстрирует работу так называемых бинарных деревьев.
В узлах бинарных деревьев ветвление может вестись только в двух направлениях, т.е. существует возможность только двух ответов на поставленный вопрос ("да" и "нет").
Бинарные деревья являются самым простым, частным случаем деревьев решений. В остальных случаях, ответов и, соответственно, ветвей дерева, выходящих из его внутреннего узла, может быть больше двух.
Описание слайда:
В рассмотренном примере решается задача бинарной классификации, т.е. создается дихотомическая классификационная модель. Пример демонстрирует работу так называемых бинарных деревьев. В узлах бинарных деревьев ветвление может вестись только в двух направлениях, т.е. существует возможность только двух ответов на поставленный вопрос ("да" и "нет"). Бинарные деревья являются самым простым, частным случаем деревьев решений. В остальных случаях, ответов и, соответственно, ветвей дерева, выходящих из его внутреннего узла, может быть больше двух.

Слайд 62


Data Mining - интеллектуальный анализ данных, слайд №62
Описание слайда:

Слайд 63





Как мы видим, внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами описанной выше базы данных. Эти атрибуты называют прогнозирующими, или атрибутами расщепления (splitting attribute). Конечные узлы дерева, или листы, именуются метками класса, являющимися значениями зависимой категориальной переменной "выдавать" или "не выдавать" кредит.
Как мы видим, внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами описанной выше базы данных. Эти атрибуты называют прогнозирующими, или атрибутами расщепления (splitting attribute). Конечные узлы дерева, или листы, именуются метками класса, являющимися значениями зависимой категориальной переменной "выдавать" или "не выдавать" кредит.
Каждая ветвь дерева, идущая от внутреннего узла, отмечена предикатом расщепления. Последний может относиться лишь к одному атрибуту расщепления данного узла. Характерная особенность предикатов расщепления: каждая запись использует уникальный путь от корня дерева только к одному узлу-решению. Объединенная информация об атрибутах расщепления и предикатах расщепления в узле называется критерием расщепления (splitting criterion)
Описание слайда:
Как мы видим, внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами описанной выше базы данных. Эти атрибуты называют прогнозирующими, или атрибутами расщепления (splitting attribute). Конечные узлы дерева, или листы, именуются метками класса, являющимися значениями зависимой категориальной переменной "выдавать" или "не выдавать" кредит. Как мы видим, внутренние узлы дерева (возраст, наличие недвижимости, доход и образование) являются атрибутами описанной выше базы данных. Эти атрибуты называют прогнозирующими, или атрибутами расщепления (splitting attribute). Конечные узлы дерева, или листы, именуются метками класса, являющимися значениями зависимой категориальной переменной "выдавать" или "не выдавать" кредит. Каждая ветвь дерева, идущая от внутреннего узла, отмечена предикатом расщепления. Последний может относиться лишь к одному атрибуту расщепления данного узла. Характерная особенность предикатов расщепления: каждая запись использует уникальный путь от корня дерева только к одному узлу-решению. Объединенная информация об атрибутах расщепления и предикатах расщепления в узле называется критерием расщепления (splitting criterion)

Слайд 64





Преимущества деревьев решений

Интуитивность деревьев решений
Точность моделей
Быстрый процесс обучения.
Описание слайда:
Преимущества деревьев решений Интуитивность деревьев решений Точность моделей Быстрый процесс обучения.

Слайд 65





Алгоритмы

На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: 
CART,
 C4.5, 
CHAID, 
CN2, 
NewId,
 Itrule
 и другие.
Описание слайда:
Алгоритмы На сегодняшний день существует большое число алгоритмов, реализующих деревья решений: CART, C4.5, CHAID, CN2, NewId, Itrule и другие.

Слайд 66





Алгоритм CART

Алгоритм CART (Classification and Regression Tree), как видно из названия, решает задачи классификации и регрессии. Он разработан в 1974-1984 годах четырьмя профессорами статистики - Leo Breiman (Berkeley), Jerry Friedman (Stanford), Charles Stone (Berkeley) и Richard Olshen (Stanford).
Атрибуты набора данных могут иметь как дискретное, так и числовое значение.
Алгоритм CART предназначен для построения бинарного дерева решений.
Описание слайда:
Алгоритм CART Алгоритм CART (Classification and Regression Tree), как видно из названия, решает задачи классификации и регрессии. Он разработан в 1974-1984 годах четырьмя профессорами статистики - Leo Breiman (Berkeley), Jerry Friedman (Stanford), Charles Stone (Berkeley) и Richard Olshen (Stanford). Атрибуты набора данных могут иметь как дискретное, так и числовое значение. Алгоритм CART предназначен для построения бинарного дерева решений.

Слайд 67






Другие особенности алгоритма CART:
функция оценки качества разбиения;
механизм отсечения дерева;
алгоритм обработки пропущенных значений;
построение деревьев регрессии.
Описание слайда:
Другие особенности алгоритма CART: функция оценки качества разбиения; механизм отсечения дерева; алгоритм обработки пропущенных значений; построение деревьев регрессии.

Слайд 68





Алгоритм C4.5

Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла.
 Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации.
 C4.5 считается одним из самых известных и широко используемых алгоритмов построения деревьев классификации.
Описание слайда:
Алгоритм C4.5 Алгоритм C4.5 строит дерево решений с неограниченным количеством ветвей у узла. Данный алгоритм может работать только с дискретным зависимым атрибутом и поэтому может решать только задачи классификации. C4.5 считается одним из самых известных и широко используемых алгоритмов построения деревьев классификации.

Слайд 69






Для работы алгоритма C4.5 необходимо соблюдение следующих требований:
Каждая запись набора данных должна быть ассоциирована с одним из предопределенных классов, т.е. один из атрибутов набора данных должен являться меткой класса.
Классы должны быть дискретными. Каждый пример должен однозначно относиться к одному из классов.
Количество классов должно быть значительно меньше количества записей в исследуемом наборе данных.
Описание слайда:
Для работы алгоритма C4.5 необходимо соблюдение следующих требований: Каждая запись набора данных должна быть ассоциирована с одним из предопределенных классов, т.е. один из атрибутов набора данных должен являться меткой класса. Классы должны быть дискретными. Каждый пример должен однозначно относиться к одному из классов. Количество классов должно быть значительно меньше количества записей в исследуемом наборе данных.

Слайд 70






Последняя версия алгоритма - алгоритм C4.8 - реализована в инструменте Weka как J4.8 (Java). Коммерческая реализация метода: C5.0, разработчик RuleQuest, Австралия.
Алгоритм C4.5 медленно работает на сверхбольших и зашумленных наборах данных.
Описание слайда:
Последняя версия алгоритма - алгоритм C4.8 - реализована в инструменте Weka как J4.8 (Java). Коммерческая реализация метода: C5.0, разработчик RuleQuest, Австралия. Алгоритм C4.5 медленно работает на сверхбольших и зашумленных наборах данных.

Слайд 71






Алгоритмы построения деревьев решений различаются следующими характеристиками:
вид расщепления - бинарное (binary), множественное (multi-way)
критерии расщепления - энтропия, Gini, другие
возможность обработки пропущенных значений
процедура сокращения ветвей или отсечения
возможности извлечения правил из деревьев.
Описание слайда:
Алгоритмы построения деревьев решений различаются следующими характеристиками: вид расщепления - бинарное (binary), множественное (multi-way) критерии расщепления - энтропия, Gini, другие возможность обработки пропущенных значений процедура сокращения ветвей или отсечения возможности извлечения правил из деревьев.

Слайд 72






 Большинство систем Data mining используют метод деревьев решений.
 Самыми известными являются:
 See5/С5.0 (RuleQuest, Австралия), 
Clementine (Integral Solutions, Великобритания), 
SIPINA (University of Lyon, Франция), 
IDIS (Information Discovery, США), 
KnowledgeSeeker (ANGOSS, Канада).
 Стоимость этих систем варьируется от 1 до 10 тыс. долл.
Описание слайда:
 Большинство систем Data mining используют метод деревьев решений. Самыми известными являются: See5/С5.0 (RuleQuest, Австралия), Clementine (Integral Solutions, Великобритания), SIPINA (University of Lyon, Франция), IDIS (Information Discovery, США), KnowledgeSeeker (ANGOSS, Канада). Стоимость этих систем варьируется от 1 до 10 тыс. долл.

Слайд 73


Data Mining - интеллектуальный анализ данных, слайд №73
Описание слайда:

Слайд 74


Data Mining - интеллектуальный анализ данных, слайд №74
Описание слайда:

Слайд 75





Метод опорных векторов

Метод опорных векторов (Support Vector Machine - SVM) относится к группе граничных методов. Она определяет классы при помощи границ областей.
При помощи данного метода решаются задачи бинарной классификации.
В основе метода лежит понятие плоскостей решений.
Плоскость (plane) решения разделяет объекты с разной классовой принадлежностью.
Описание слайда:
Метод опорных векторов Метод опорных векторов (Support Vector Machine - SVM) относится к группе граничных методов. Она определяет классы при помощи границ областей. При помощи данного метода решаются задачи бинарной классификации. В основе метода лежит понятие плоскостей решений. Плоскость (plane) решения разделяет объекты с разной классовой принадлежностью.

Слайд 76





Метод опорных векторов
Описание слайда:
Метод опорных векторов

Слайд 77


Data Mining - интеллектуальный анализ данных, слайд №77
Описание слайда:

Слайд 78





Опорными векторами называются объекты множества, лежащие на границах областей.
Классификация считается хорошей, если область между границами пуста.
Описание слайда:
Опорными векторами называются объекты множества, лежащие на границах областей. Классификация считается хорошей, если область между границами пуста.

Слайд 79





Задачу можно сформулировать как поиск функции f(x), принимающей значения меньше нуля для векторов одного класса и больше нуля - для векторов другого класса. В качестве исходных данных для решения поставленной задачи, т.е. поиска классифицирующей функции f(x), дан тренировочный набор векторов пространства, для которых известна их принадлежность к одному из классов. Семейство классифицирующих функций можно описать через функцию f(x). Гиперплоскость определена вектором а и значением b, т.е. f(x)=ax+b. 
Задачу можно сформулировать как поиск функции f(x), принимающей значения меньше нуля для векторов одного класса и больше нуля - для векторов другого класса. В качестве исходных данных для решения поставленной задачи, т.е. поиска классифицирующей функции f(x), дан тренировочный набор векторов пространства, для которых известна их принадлежность к одному из классов. Семейство классифицирующих функций можно описать через функцию f(x). Гиперплоскость определена вектором а и значением b, т.е. f(x)=ax+b.
Описание слайда:
Задачу можно сформулировать как поиск функции f(x), принимающей значения меньше нуля для векторов одного класса и больше нуля - для векторов другого класса. В качестве исходных данных для решения поставленной задачи, т.е. поиска классифицирующей функции f(x), дан тренировочный набор векторов пространства, для которых известна их принадлежность к одному из классов. Семейство классифицирующих функций можно описать через функцию f(x). Гиперплоскость определена вектором а и значением b, т.е. f(x)=ax+b. Задачу можно сформулировать как поиск функции f(x), принимающей значения меньше нуля для векторов одного класса и больше нуля - для векторов другого класса. В качестве исходных данных для решения поставленной задачи, т.е. поиска классифицирующей функции f(x), дан тренировочный набор векторов пространства, для которых известна их принадлежность к одному из классов. Семейство классифицирующих функций можно описать через функцию f(x). Гиперплоскость определена вектором а и значением b, т.е. f(x)=ax+b.

Слайд 80


Data Mining - интеллектуальный анализ данных, слайд №80
Описание слайда:

Слайд 81





Алгоритмы ограниченного перебора

Алгоритмы ограниченного перебора были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых различных областей. 
Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: 
X = a; X < a; X a; a < X < b и др., где X - какой либо параметр, "a" и "b" - константы. 
Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.
Описание слайда:
Алгоритмы ограниченного перебора Алгоритмы ограниченного перебора были предложены в середине 60-х годов М.М. Бонгардом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых различных областей. Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = a; X < a; X a; a < X < b и др., где X - какой либо параметр, "a" и "b" - константы. Ограничением служит длина комбинации простых логических событий (у М. Бонгарда она была равна 3). На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.

Слайд 82





WizWhy

Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft. Хотя автор системы Абрахам Мейдан не раскрывает специфику алгоритма, положенного в основу работы WizWhy, по результатам тщательного тестирования системы были сделаны выводы о наличии здесь ограниченного перебора (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.).
 
Программа просматривает заданную базу данных и, собрав статистику, отыскивает правила и закономерности, которым подчиняются сведения, собранные в базе. Само собой, правила отыскиваются только там, где они действительно есть.
WizWhy, проанализировав базу данных, дает возможность пользователю заняться предсказаниями и прогнозами. Человек вводит значения известных ему параметров, а WizWhy, основываясь на обнаруженных ею в базе закономерностях, выдает наиболее вероятные значения недостающих параметров.

 
Описание слайда:
WizWhy Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft. Хотя автор системы Абрахам Мейдан не раскрывает специфику алгоритма, положенного в основу работы WizWhy, по результатам тщательного тестирования системы были сделаны выводы о наличии здесь ограниченного перебора (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.).   Программа просматривает заданную базу данных и, собрав статистику, отыскивает правила и закономерности, которым подчиняются сведения, собранные в базе. Само собой, правила отыскиваются только там, где они действительно есть. WizWhy, проанализировав базу данных, дает возможность пользователю заняться предсказаниями и прогнозами. Человек вводит значения известных ему параметров, а WizWhy, основываясь на обнаруженных ею в базе закономерностях, выдает наиболее вероятные значения недостающих параметров.  

Слайд 83


Data Mining - интеллектуальный анализ данных, слайд №83
Описание слайда:

Слайд 84






WizWhy обнаруживает и математические, и логические закономерности. Допустим, что вам известны погода, температура воздуха, настроение сослуживцев и результат тиража спортлото. Предположим, вы собрали из этих сведений базу данных за несколько месяцев. WizWhy найдет в ней неочевидные человеческому взгляду закономерности там, где они и в самом деле существуют. Как уже говорилось, WizWhy можно использовать для предсказаний, основывающихся на обнаруженных закономерностях. Думаю, что в результате исследований такой базы данных вы с легкостью определите, кто из ваших сослуживцев регулярно проигрывает в спортлото, кто особенно чувствителен к жаре или холоду, кто какую погоду предпочитает и так далее. Вы не только извлечете эти знания из базы, но и сможете применить их для прогнозов.
Описание слайда:
WizWhy обнаруживает и математические, и логические закономерности. Допустим, что вам известны погода, температура воздуха, настроение сослуживцев и результат тиража спортлото. Предположим, вы собрали из этих сведений базу данных за несколько месяцев. WizWhy найдет в ней неочевидные человеческому взгляду закономерности там, где они и в самом деле существуют. Как уже говорилось, WizWhy можно использовать для предсказаний, основывающихся на обнаруженных закономерностях. Думаю, что в результате исследований такой базы данных вы с легкостью определите, кто из ваших сослуживцев регулярно проигрывает в спортлото, кто особенно чувствителен к жаре или холоду, кто какую погоду предпочитает и так далее. Вы не только извлечете эти знания из базы, но и сможете применить их для прогнозов.

Слайд 85







WizWhy может стать незаменимым инструментом аналитика. Очевидны возможности ее применения в геологии, в медицинской диагностике, социальных исследованиях, при анализе клиентуры в банковских и финансовых учреждениях, в маркетинговых исследованиях и тому подобном.
WizWhy является на сегодняшний день одним из лидеров на рынке продуктов Data Mining. Это не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Стоимость системы около $ 4000, количество продаж - 30000.
Описание слайда:
WizWhy может стать незаменимым инструментом аналитика. Очевидны возможности ее применения в геологии, в медицинской диагностике, социальных исследованиях, при анализе клиентуры в банковских и финансовых учреждениях, в маркетинговых исследованиях и тому подобном. WizWhy является на сегодняшний день одним из лидеров на рынке продуктов Data Mining. Это не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Стоимость системы около $ 4000, количество продаж - 30000.

Слайд 86






Прецедент - это описание ситуации в сочетании с подробным указанием действий, предпринимаемых в данной ситуации.
Описание слайда:
Прецедент - это описание ситуации в сочетании с подробным указанием действий, предпринимаемых в данной ситуации.

Слайд 87





Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев

Идея систем рассуждений по аналогии (Case Based Reasoning, CBR), — на первый взгляд крайне проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом "ближайшего соседа" (nearest neighbour). В последнее время распространение получил также термин memory based reasoning, который акцентирует внимание, что решение принимается на основании всей информации, накопленной в памяти.
Описание слайда:
Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев Идея систем рассуждений по аналогии (Case Based Reasoning, CBR), — на первый взгляд крайне проста. Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же ответ, который был для них правильным. Поэтому этот метод еще называют методом "ближайшего соседа" (nearest neighbour). В последнее время распространение получил также термин memory based reasoning, который акцентирует внимание, что решение принимается на основании всей информации, накопленной в памяти.

Слайд 88





Подход, основанный на прецедентах, условно можно поделить на следующие этапы:

сбор подробной информации о поставленной задаче;
сопоставление этой информации с деталями прецедентов, хранящихся в базе, для выявления аналогичных случаев;
выбор прецедента, наиболее близкого к текущей проблеме, из базы прецедентов;
адаптация выбранного решения к текущей проблеме, если это необходимо;
проверка корректности каждого вновь полученного решения;
занесение детальной информации о новом прецеденте в базу прецедентов.
Описание слайда:
Подход, основанный на прецедентах, условно можно поделить на следующие этапы: сбор подробной информации о поставленной задаче; сопоставление этой информации с деталями прецедентов, хранящихся в базе, для выявления аналогичных случаев; выбор прецедента, наиболее близкого к текущей проблеме, из базы прецедентов; адаптация выбранного решения к текущей проблеме, если это необходимо; проверка корректности каждого вновь полученного решения; занесение детальной информации о новом прецеденте в базу прецедентов.

Слайд 89





Преимущества метода

Простота использования полученных результатов.
Решения не уникальны для конкретной ситуации, возможно их использование для других случаев.
Целью поиска является не гарантированно верное решение, а лучшее из возможных.
С помощью данного метода решаются задачи классификации и регрессии.
Описание слайда:
Преимущества метода Простота использования полученных результатов. Решения не уникальны для конкретной ситуации, возможно их использование для других случаев. Целью поиска является не гарантированно верное решение, а лучшее из возможных. С помощью данного метода решаются задачи классификации и регрессии.

Слайд 90





Недостатки метода "ближайшего соседа"

Данный метод не создает каких-либо моделей или правил, обобщающих предыдущий опыт, - в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на каком основании строятся ответы.
Существует сложность выбора меры "близости" (метрики). От этой меры главным образом зависит объем множества записей, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза
При использовании метода возникает необходимость полного перебора обучающей выборки при распознавании, следствие этого - вычислительная трудоемкость.
Типичные задачи данного метода - это задачи небольшой размерности по количеству классов и переменных.
Описание слайда:
Недостатки метода "ближайшего соседа" Данный метод не создает каких-либо моделей или правил, обобщающих предыдущий опыт, - в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на каком основании строятся ответы. Существует сложность выбора меры "близости" (метрики). От этой меры главным образом зависит объем множества записей, которые нужно хранить в памяти для достижения удовлетворительной классификации или прогноза При использовании метода возникает необходимость полного перебора обучающей выборки при распознавании, следствие этого - вычислительная трудоемкость. Типичные задачи данного метода - это задачи небольшой размерности по количеству классов и переменных.

Слайд 91





Классификация объектов множества при разном значении параметра k
Описание слайда:
Классификация объектов множества при разном значении параметра k

Слайд 92





Байесовская сеть (или байесова сеть, байесовская сеть доверия, англ. Bayesian network, belief network) — графическая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. 
Байесовская сеть (или байесова сеть, байесовская сеть доверия, англ. Bayesian network, belief network) — графическая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. 
Например, байесовская сеть может быть использована для вычисления вероятности того, чем болен пациент по наличию или отсутствию ряда симптомов, основываясь на данных о зависимости между симптомами и болезнями. 
Математический аппарат байесовых сетей создан американским ученым Джудой Перлом, лауреатом Премии Тьюринга (2011).
Описание слайда:
Байесовская сеть (или байесова сеть, байесовская сеть доверия, англ. Bayesian network, belief network) — графическая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. Байесовская сеть (или байесова сеть, байесовская сеть доверия, англ. Bayesian network, belief network) — графическая вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. Например, байесовская сеть может быть использована для вычисления вероятности того, чем болен пациент по наличию или отсутствию ряда симптомов, основываясь на данных о зависимости между симптомами и болезнями. Математический аппарат байесовых сетей создан американским ученым Джудой Перлом, лауреатом Премии Тьюринга (2011).

Слайд 93





Предположим, что может быть две причины, по которым трава может стать мокрой (GRASS WET): сработала дождевальная установка, либо прошел дождь. Также предположим, что дождь влияет на работу дождевальной машины (во время дождя установка не включается). Тогда ситуация может быть смоделирована проиллюстрированной Байесовской сетью. Все три переменные могут принимать два возможных значения: T (правда — true) и F (ложь — false).
Предположим, что может быть две причины, по которым трава может стать мокрой (GRASS WET): сработала дождевальная установка, либо прошел дождь. Также предположим, что дождь влияет на работу дождевальной машины (во время дождя установка не включается). Тогда ситуация может быть смоделирована проиллюстрированной Байесовской сетью. Все три переменные могут принимать два возможных значения: T (правда — true) и F (ложь — false).
Совместная вероятность функции: 
где имена трех переменных означают:
 G = Трава мокрая (Grass wet),
 S = Дождевальная установка (Sprinkler), 
 R = Дождь (Rain).
Описание слайда:
Предположим, что может быть две причины, по которым трава может стать мокрой (GRASS WET): сработала дождевальная установка, либо прошел дождь. Также предположим, что дождь влияет на работу дождевальной машины (во время дождя установка не включается). Тогда ситуация может быть смоделирована проиллюстрированной Байесовской сетью. Все три переменные могут принимать два возможных значения: T (правда — true) и F (ложь — false). Предположим, что может быть две причины, по которым трава может стать мокрой (GRASS WET): сработала дождевальная установка, либо прошел дождь. Также предположим, что дождь влияет на работу дождевальной машины (во время дождя установка не включается). Тогда ситуация может быть смоделирована проиллюстрированной Байесовской сетью. Все три переменные могут принимать два возможных значения: T (правда — true) и F (ложь — false). Совместная вероятность функции: где имена трех переменных означают: G = Трава мокрая (Grass wet), S = Дождевальная установка (Sprinkler), R = Дождь (Rain).

Слайд 94


Data Mining - интеллектуальный анализ данных, слайд №94
Описание слайда:

Слайд 95






Модель может ответить на такие вопросы как «Какова вероятность того, что прошел дождь, если трава мокрая?» используя формулу условной вероятности и суммируя переменные:
Описание слайда:
Модель может ответить на такие вопросы как «Какова вероятность того, что прошел дождь, если трава мокрая?» используя формулу условной вероятности и суммируя переменные:

Слайд 96







Свойства наивной классификации:
Использование всех переменных и определение всех зависимостей между ними.
Наличие двух предположений относительно переменных:
все переменные являются одинаково важными;
все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой
Описание слайда:
Свойства наивной классификации: Использование всех переменных и определение всех зависимостей между ними. Наличие двух предположений относительно переменных: все переменные являются одинаково важными; все переменные являются статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой

Слайд 97





Отмечают такие достоинства байесовских сетей как метода Data Mining
в модели определяются зависимости между всеми переменными, это позволяет легко обрабатывать ситуации, в которых значения некоторых переменных неизвестны;
байесовские сети достаточно просто интерпретируются и позволяют на этапе прогностического моделирования легко проводить анализ по сценарию "что, если";
байесовский метод позволяет естественным образом совмещать закономерности, выведенные из данных, и, например, экспертные знания, полученные в явном виде;
использование байесовских сетей позволяет избежать проблемы переучивания (overfitting), то есть избыточного усложнения модели, что является слабой стороной многих методов (например, деревьев решений и нейронных сетей).
Описание слайда:
Отмечают такие достоинства байесовских сетей как метода Data Mining в модели определяются зависимости между всеми переменными, это позволяет легко обрабатывать ситуации, в которых значения некоторых переменных неизвестны; байесовские сети достаточно просто интерпретируются и позволяют на этапе прогностического моделирования легко проводить анализ по сценарию "что, если"; байесовский метод позволяет естественным образом совмещать закономерности, выведенные из данных, и, например, экспертные знания, полученные в явном виде; использование байесовских сетей позволяет избежать проблемы переучивания (overfitting), то есть избыточного усложнения модели, что является слабой стороной многих методов (например, деревьев решений и нейронных сетей).

Слайд 98





Наивно-байесовский подход имеет следующие недостатки:

перемножать условные вероятности корректно только тогда, когда все входные переменные действительно статистически независимы; хотя часто данный метод показывает достаточно хорошие результаты при несоблюдении условия статистической независимости, но теоретически такая ситуация должна обрабатываться более сложными методами, основанными на обучении байесовских сетей ;
невозможна непосредственная обработка непрерывных переменных - требуется их преобразование к интервальной шкале, чтобы атрибуты были дискретными; однако такие преобразования иногда могут приводить к потере значимых закономерностей ;
на результат классификации в наивно-байесовском подходе влияют только индивидуальные значения входных переменных, комбинированное влияние пар или троек значений разных атрибутов здесь не учитывается ..
Описание слайда:
Наивно-байесовский подход имеет следующие недостатки: перемножать условные вероятности корректно только тогда, когда все входные переменные действительно статистически независимы; хотя часто данный метод показывает достаточно хорошие результаты при несоблюдении условия статистической независимости, но теоретически такая ситуация должна обрабатываться более сложными методами, основанными на обучении байесовских сетей ; невозможна непосредственная обработка непрерывных переменных - требуется их преобразование к интервальной шкале, чтобы атрибуты были дискретными; однако такие преобразования иногда могут приводить к потере значимых закономерностей ; на результат классификации в наивно-байесовском подходе влияют только индивидуальные значения входных переменных, комбинированное влияние пар или троек значений разных атрибутов здесь не учитывается ..

Слайд 99





Нейронные сети
Это большой класс систем, архитектура которых имеет аналогию с построением нервной ткани из нейронов.
 В одной из наиболее распространенных архитектур, многослойном перцептроне с обратным распространением ошибки, имитируется работа нейронов в составе иерархической сети, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д. Эти значения рассматриваются как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ — реакция всей сети на введенные значения входных параметров.
Описание слайда:
Нейронные сети Это большой класс систем, архитектура которых имеет аналогию с построением нервной ткани из нейронов. В одной из наиболее распространенных архитектур, многослойном перцептроне с обратным распространением ошибки, имитируется работа нейронов в составе иерархической сети, где каждый нейрон более высокого уровня соединен своими входами с выходами нейронов нижележащего слоя. На нейроны самого нижнего слоя подаются значения входных параметров, на основе которых нужно принимать какие-то решения, прогнозировать развитие ситуации и т. д. Эти значения рассматриваются как сигналы, передающиеся в следующий слой, ослабляясь или усиливаясь в зависимости от числовых значений (весов), приписываемых межнейронным связям. В результате на выходе нейрона самого верхнего слоя вырабатывается некоторое значение, которое рассматривается как ответ — реакция всей сети на введенные значения входных параметров.

Слайд 100





Классификация нейронных сетей

Одна из возможных классификаций нейронных сетей - по направленности связей.
Нейронные сети бывают с обратными связями и без обратных связей.
1. Сети без обратных связей
Сети с обратным распространением ошибки.
Сети этой группы характеризуются фиксированной структурой, итерационным обучением, корректировкой весов по ошибкам
Другие сети (когнитрон, неокогнитрон, другие сложные модели).
Преимуществами сетей без обратных связей является простота их реализации и гарантированное получение ответа после прохождения данных по слоям.
Недостатком этого вида сетей считается минимизация размеров сети - нейроны многократно участвуют в обработке данных.
Меньший объем сети облегчает процесс обучения
Описание слайда:
Классификация нейронных сетей Одна из возможных классификаций нейронных сетей - по направленности связей. Нейронные сети бывают с обратными связями и без обратных связей. 1. Сети без обратных связей Сети с обратным распространением ошибки. Сети этой группы характеризуются фиксированной структурой, итерационным обучением, корректировкой весов по ошибкам Другие сети (когнитрон, неокогнитрон, другие сложные модели). Преимуществами сетей без обратных связей является простота их реализации и гарантированное получение ответа после прохождения данных по слоям. Недостатком этого вида сетей считается минимизация размеров сети - нейроны многократно участвуют в обработке данных. Меньший объем сети облегчает процесс обучения

Слайд 101






2. Сети с обратными связями
Сети Хопфилда (задачи ассоциативной памяти).
Сети Кохонена (задачи кластерного анализа).
Особенностью  сетей с обратными связями является сложность обучения, вызванная большим числом нейронов для алгоритмов одного и того же уровня сложности.
Недостатки этого вида сетей - требуются специальные условия, гарантирующие сходимость вычислений.
Описание слайда:
2. Сети с обратными связями Сети Хопфилда (задачи ассоциативной памяти). Сети Кохонена (задачи кластерного анализа). Особенностью сетей с обратными связями является сложность обучения, вызванная большим числом нейронов для алгоритмов одного и того же уровня сложности. Недостатки этого вида сетей - требуются специальные условия, гарантирующие сходимость вычислений.

Слайд 102






Другая классификация нейронных сетей: сети прямого распространения и рекуррентные сети.
1. Сети прямого распространения
Персептроны.
Сеть Back Propagation.
Сеть встречного распространения.
Карта Кохонена.
Описание слайда:
Другая классификация нейронных сетей: сети прямого распространения и рекуррентные сети. 1. Сети прямого распространения Персептроны. Сеть Back Propagation. Сеть встречного распространения. Карта Кохонена.

Слайд 103






2. Рекуррентные сети.
 Характерная особенность таких сетей - наличие блоков динамической задержки и обратных связей, что позволяет им обрабатывать динамические модели.
Сеть Хопфилда.
Сеть Элмана - сеть, состоящая из двух слоев, в которой скрытый слой охвачен динамической обратной связью, что позволяет учесть предысторию наблюдаемых процессов и накопить информацию для выработки правильной стратегии управления.
 Эти сети применяются в системах управления движущимися объектами.
Описание слайда:
2. Рекуррентные сети. Характерная особенность таких сетей - наличие блоков динамической задержки и обратных связей, что позволяет им обрабатывать динамические модели. Сеть Хопфилда. Сеть Элмана - сеть, состоящая из двух слоев, в которой скрытый слой охвачен динамической обратной связью, что позволяет учесть предысторию наблюдаемых процессов и накопить информацию для выработки правильной стратегии управления. Эти сети применяются в системах управления движущимися объектами.

Слайд 104





Нейронные сети могут обучаться с учителем или без него.

При обучении с учителем для каждого обучающего входного примера требуется знание правильного ответа или функции оценки качества ответа. Такое обучение называют управляемым. Нейронной сети предъявляются значения входных и выходных сигналов, а она по определенному алгоритму подстраивает веса синаптических связей. В процессе обучения производится корректировка весов сети по результатам сравнения фактических выходных значений с входными, известными заранее.
При обучении без учителя раскрывается внутренняя структура данных или корреляции между образцами в наборе данных. Выходы нейронной сети формируются самостоятельно, а веса изменяются по алгоритму, учитывающему только входные и производные от них сигналы. Это обучение называют также неуправляемым. В результате такого обучения объекты или примеры распределяются по категориям, сами категории и их количество могут быть заранее не известны.
Описание слайда:
Нейронные сети могут обучаться с учителем или без него. При обучении с учителем для каждого обучающего входного примера требуется знание правильного ответа или функции оценки качества ответа. Такое обучение называют управляемым. Нейронной сети предъявляются значения входных и выходных сигналов, а она по определенному алгоритму подстраивает веса синаптических связей. В процессе обучения производится корректировка весов сети по результатам сравнения фактических выходных значений с входными, известными заранее. При обучении без учителя раскрывается внутренняя структура данных или корреляции между образцами в наборе данных. Выходы нейронной сети формируются самостоятельно, а веса изменяются по алгоритму, учитывающему только входные и производные от них сигналы. Это обучение называют также неуправляемым. В результате такого обучения объекты или примеры распределяются по категориям, сами категории и их количество могут быть заранее не известны.

Слайд 105





Выбор структуры нейронной сети

Существуют  принципы, которыми следует руководствоваться при разработке новой конфигурации:
возможности сети возрастают с увеличением числа ячеек сети, плотности связей между ними и числом выделенных слоев;
введение обратных связей наряду с увеличением возможностей сети поднимает вопрос о динамической устойчивости сети;
сложность алгоритмов функционирования сети (в том числе, например, введение нескольких типов синапсов - возбуждающих, тормозящих и др.) также способствует усилению мощи НС.
Описание слайда:
Выбор структуры нейронной сети Существуют принципы, которыми следует руководствоваться при разработке новой конфигурации: возможности сети возрастают с увеличением числа ячеек сети, плотности связей между ними и числом выделенных слоев; введение обратных связей наряду с увеличением возможностей сети поднимает вопрос о динамической устойчивости сети; сложность алгоритмов функционирования сети (в том числе, например, введение нескольких типов синапсов - возбуждающих, тормозящих и др.) также способствует усилению мощи НС.

Слайд 106





Карты Кохонена
В результате работы алгоритма получаются следующие карты:
карта входов нейронов — визуализирует внутреннюю структуру входных данных путем подстройки весов нейронов карты. Обычно используется несколько карт входов, каждая из которых отображает один из них и раскрашивается в зависимости от веса нейрона. На одной из карт определенным цветом обозначают область, в которую включаются приблизительно одинаковые входы для анализируемых примеров.
карта выходов нейронов — визуализирует модель взаимного расположения входных примеров. Очерченные области на карте представляют собой кластеры, состоящие из нейронов со схожими значениями выходов.
специальные карты — это карта кластеров, полученных в результате применения алгоритма самоорганизующейся карты Кохонена, а также другие карты, которые их характеризуют
Описание слайда:
Карты Кохонена В результате работы алгоритма получаются следующие карты: карта входов нейронов — визуализирует внутреннюю структуру входных данных путем подстройки весов нейронов карты. Обычно используется несколько карт входов, каждая из которых отображает один из них и раскрашивается в зависимости от веса нейрона. На одной из карт определенным цветом обозначают область, в которую включаются приблизительно одинаковые входы для анализируемых примеров. карта выходов нейронов — визуализирует модель взаимного расположения входных примеров. Очерченные области на карте представляют собой кластеры, состоящие из нейронов со схожими значениями выходов. специальные карты — это карта кластеров, полученных в результате применения алгоритма самоорганизующейся карты Кохонена, а также другие карты, которые их характеризуют

Слайд 107





Карты Кохонена

Задачи, решаемые при помощи карт Кохонена
Самоорганизующиеся карты могут использоваться для решения таких задач, как моделирование, прогнозирование, поиск закономерностей в больших массивах данных, выявление наборов независимых признаков и сжатие информации.
Наиболее распространенное применение сетей Кохонена - решение задачи классификации без учителя, т.е. кластеризации.
Описание слайда:
Карты Кохонена Задачи, решаемые при помощи карт Кохонена Самоорганизующиеся карты могут использоваться для решения таких задач, как моделирование, прогнозирование, поиск закономерностей в больших массивах данных, выявление наборов независимых признаков и сжатие информации. Наиболее распространенное применение сетей Кохонена - решение задачи классификации без учителя, т.е. кластеризации.

Слайд 108





Разведочный анализ данных.
Сеть Кохонена способна распознавать кластеры в данных, а также устанавливать близость классов. Таким образом, пользователь может улучшить свое понимание структуры данных, чтобы затем уточнить нейросетевую модель. Если в данных распознаны классы, то их можно обозначить, после чего сеть сможет решать задачи классификации. Сети Кохонена можно использовать и в тех задачах классификации, где классы уже заданы, - тогда преимущество будет в том, что сеть сможет выявить сходство между различными классами.
Описание слайда:
Разведочный анализ данных. Сеть Кохонена способна распознавать кластеры в данных, а также устанавливать близость классов. Таким образом, пользователь может улучшить свое понимание структуры данных, чтобы затем уточнить нейросетевую модель. Если в данных распознаны классы, то их можно обозначить, после чего сеть сможет решать задачи классификации. Сети Кохонена можно использовать и в тех задачах классификации, где классы уже заданы, - тогда преимущество будет в том, что сеть сможет выявить сходство между различными классами.

Слайд 109





Обнаружение новых явлений.
Сеть Кохонена распознает кластеры в обучающих данных и относит все данные к тем или иным кластерам. Если после этого сеть встретится с набором данных, непохожим ни на один из известных образцов, то она не сможет классифицировать такой набор и тем самым выявит его новизну.
Описание слайда:
Обнаружение новых явлений. Сеть Кохонена распознает кластеры в обучающих данных и относит все данные к тем или иным кластерам. Если после этого сеть встретится с набором данных, непохожим ни на один из известных образцов, то она не сможет классифицировать такой набор и тем самым выявит его новизну.

Слайд 110





Карты Кохонена
Самоорганизующаяся карта состоит из компонентов, называемых узлами или нейронами. Их количество задаётся аналитиком.
 Каждый из узлов описывается двумя векторами. Первый — т. н. вектор веса m, имеющий такую же размерность, что и входные данные. Второй — вектор r, представляющий собой координаты узла на карте. Карта Кохонена визуально отображается с помощью ячеек прямоугольной или шестиугольной формы; последняя применяется чаще, поскольку в этом случае расстояния между центрами смежных ячеек одинаковы, что повышает корректность визуализации карты.
Описание слайда:
Карты Кохонена Самоорганизующаяся карта состоит из компонентов, называемых узлами или нейронами. Их количество задаётся аналитиком. Каждый из узлов описывается двумя векторами. Первый — т. н. вектор веса m, имеющий такую же размерность, что и входные данные. Второй — вектор r, представляющий собой координаты узла на карте. Карта Кохонена визуально отображается с помощью ячеек прямоугольной или шестиугольной формы; последняя применяется чаще, поскольку в этом случае расстояния между центрами смежных ячеек одинаковы, что повышает корректность визуализации карты.

Слайд 111


Data Mining - интеллектуальный анализ данных, слайд №111
Описание слайда:

Слайд 112





Карты Кохонена
Изначально известна размерность входных данных, по ней некоторым образом строится первоначальный вариант карты. В процессе обучения векторы веса узлов приближаются к входным данным. Для каждого наблюдения (семпла) выбирается наиболее похожий по вектору веса узел, и значение его вектора веса приближается к наблюдению. Также к наблюдению приближаются векторы веса нескольких узлов, расположенных рядом, таким образом если в множестве входных данных два наблюдения были схожи, на карте им будут соответствовать близкие узлы. Циклический процесс обучения, перебирающий входные данные, заканчивается по достижении картой допустимой (заранее заданной аналитиком) погрешности, или по совершении заданного количества итераций. Таким образом, в результате обучения карта Кохонена классифицирует входные данные на кластеры и визуально отображает многомерные входные данные в двумерной плоскости, распределяя векторы близких признаков в соседние ячейки и раскрашивая их в зависимости от анализируемых параметров нейронов.
Описание слайда:
Карты Кохонена Изначально известна размерность входных данных, по ней некоторым образом строится первоначальный вариант карты. В процессе обучения векторы веса узлов приближаются к входным данным. Для каждого наблюдения (семпла) выбирается наиболее похожий по вектору веса узел, и значение его вектора веса приближается к наблюдению. Также к наблюдению приближаются векторы веса нескольких узлов, расположенных рядом, таким образом если в множестве входных данных два наблюдения были схожи, на карте им будут соответствовать близкие узлы. Циклический процесс обучения, перебирающий входные данные, заканчивается по достижении картой допустимой (заранее заданной аналитиком) погрешности, или по совершении заданного количества итераций. Таким образом, в результате обучения карта Кохонена классифицирует входные данные на кластеры и визуально отображает многомерные входные данные в двумерной плоскости, распределяя векторы близких признаков в соседние ячейки и раскрашивая их в зависимости от анализируемых параметров нейронов.

Слайд 113


Data Mining - интеллектуальный анализ данных, слайд №113
Описание слайда:

Слайд 114


Data Mining - интеллектуальный анализ данных, слайд №114
Описание слайда:

Слайд 115


Data Mining - интеллектуальный анализ данных, слайд №115
Описание слайда:

Слайд 116


Data Mining - интеллектуальный анализ данных, слайд №116
Описание слайда:

Слайд 117





В результате работы алгоритма получаются следующие карты:
карта входов нейронов — визуализирует внутреннюю структуру входных данных путем подстройки весов нейронов карты. Обычно используется несколько карт входов, каждая из которых отображает один из них и раскрашивается в зависимости от веса нейрона. На одной из карт определенным цветом обозначают область, в которую включаются приблизительно одинаковые входы для анализируемых примеров.
карта выходов нейронов — визуализирует модель взаимного расположения входных примеров. Очерченные области на карте представляют собой кластеры, состоящие из нейронов со схожими значениями выходов.
специальные карты — это карта кластеров, полученных в результате применения алгоритма самоорганизующейся карты Кохонена, а также другие карты, которые их характеризуют
В результате работы алгоритма получаются следующие карты:
карта входов нейронов — визуализирует внутреннюю структуру входных данных путем подстройки весов нейронов карты. Обычно используется несколько карт входов, каждая из которых отображает один из них и раскрашивается в зависимости от веса нейрона. На одной из карт определенным цветом обозначают область, в которую включаются приблизительно одинаковые входы для анализируемых примеров.
карта выходов нейронов — визуализирует модель взаимного расположения входных примеров. Очерченные области на карте представляют собой кластеры, состоящие из нейронов со схожими значениями выходов.
специальные карты — это карта кластеров, полученных в результате применения алгоритма самоорганизующейся карты Кохонена, а также другие карты, которые их характеризуют
Описание слайда:
В результате работы алгоритма получаются следующие карты: карта входов нейронов — визуализирует внутреннюю структуру входных данных путем подстройки весов нейронов карты. Обычно используется несколько карт входов, каждая из которых отображает один из них и раскрашивается в зависимости от веса нейрона. На одной из карт определенным цветом обозначают область, в которую включаются приблизительно одинаковые входы для анализируемых примеров. карта выходов нейронов — визуализирует модель взаимного расположения входных примеров. Очерченные области на карте представляют собой кластеры, состоящие из нейронов со схожими значениями выходов. специальные карты — это карта кластеров, полученных в результате применения алгоритма самоорганизующейся карты Кохонена, а также другие карты, которые их характеризуют В результате работы алгоритма получаются следующие карты: карта входов нейронов — визуализирует внутреннюю структуру входных данных путем подстройки весов нейронов карты. Обычно используется несколько карт входов, каждая из которых отображает один из них и раскрашивается в зависимости от веса нейрона. На одной из карт определенным цветом обозначают область, в которую включаются приблизительно одинаковые входы для анализируемых примеров. карта выходов нейронов — визуализирует модель взаимного расположения входных примеров. Очерченные области на карте представляют собой кластеры, состоящие из нейронов со схожими значениями выходов. специальные карты — это карта кластеров, полученных в результате применения алгоритма самоорганизующейся карты Кохонена, а также другие карты, которые их характеризуют

Слайд 118


Data Mining - интеллектуальный анализ данных, слайд №118
Описание слайда:

Слайд 119


Data Mining - интеллектуальный анализ данных, слайд №119
Описание слайда:

Слайд 120





Методы кластерного анализа. Иерархические методы

Задачи кластерного анализа можно объединить в следующие группы:
Разработка типологии или классификации.
Исследование полезных концептуальных схем группирования объектов.
Представление гипотез на основе исследования данных.
Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.
Описание слайда:
Методы кластерного анализа. Иерархические методы Задачи кластерного анализа можно объединить в следующие группы: Разработка типологии или классификации. Исследование полезных концептуальных схем группирования объектов. Представление гипотез на основе исследования данных. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных. Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач.

Слайд 121


Data Mining - интеллектуальный анализ данных, слайд №121
Описание слайда:

Слайд 122


Data Mining - интеллектуальный анализ данных, слайд №122
Описание слайда:

Слайд 123





Методы кластерного анализа

Методы кластерного анализа можно разделить на две группы:
иерархические;
неиерархические.
Каждая из групп включает множество подходов и алгоритмов.
Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением.
Описание слайда:
Методы кластерного анализа Методы кластерного анализа можно разделить на две группы: иерархические; неиерархические. Каждая из групп включает множество подходов и алгоритмов. Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением.

Слайд 124





Иерархические методы кластерного анализа

Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие.
Иерархические агломеративные методы (Agglomerative Nesting, AGNES)
Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров.
В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер.
Описание слайда:
Иерархические методы кластерного анализа Суть иерархической кластеризации состоит в последовательном объединении меньших кластеров в большие или разделении больших кластеров на меньшие. Иерархические агломеративные методы (Agglomerative Nesting, AGNES) Эта группа методов характеризуется последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров. В начале работы алгоритма все объекты являются отдельными кластерами. На первом шаге наиболее похожие объекты объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер.

Слайд 125






Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA)
Эти методы являются логической противоположностью агломеративным методам. 
В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.
Описание слайда:
Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA) Эти методы являются логической противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на меньшие кластеры, в результате образуется последовательность расщепляющих групп.

Слайд 126


Data Mining - интеллектуальный анализ данных, слайд №126
Описание слайда:

Слайд 127


Data Mining - интеллектуальный анализ данных, слайд №127
Описание слайда:

Слайд 128





Методы поиска ассоциативных правил

Ассоциативное правило имеет вид: "Из события A следует событие B".
В результате такого вида анализа мы устанавливаем закономерность следующего вида: "Если в транзакции встретился набор товаров (или набор элементов) A, то можно сделать вывод, что в этой же транзакции должен появиться набор элементов B)" Установление таких закономерностей дает нам возможность находить очень простые и понятные правила, называемые ассоциативными.
Основными характеристиками ассоциативного правила являются поддержка и достоверность правила.
Описание слайда:
Методы поиска ассоциативных правил Ассоциативное правило имеет вид: "Из события A следует событие B". В результате такого вида анализа мы устанавливаем закономерность следующего вида: "Если в транзакции встретился набор товаров (или набор элементов) A, то можно сделать вывод, что в этой же транзакции должен появиться набор элементов B)" Установление таких закономерностей дает нам возможность находить очень простые и понятные правила, называемые ассоциативными. Основными характеристиками ассоциативного правила являются поддержка и достоверность правила.

Слайд 129





Алгоритм AIS.
Первый алгоритм поиска ассоциативных правил, называвшийся AIS (предложенный Agrawal, Imielinski and Swami) был разработан сотрудниками исследовательского центра IBM Almaden в 1993 году. С этой работы начался интерес к ассоциативным правилам ; на середину 90-х годов прошлого века пришелся пик исследовательских работ в этой области, и с тех пор каждый год появляется несколько новых алгоритмов.
В алгоритме AIS кандидаты множества наборов генерируются и подсчитываются "на лету", во время сканирования базы данных.
Описание слайда:
Алгоритм AIS. Первый алгоритм поиска ассоциативных правил, называвшийся AIS (предложенный Agrawal, Imielinski and Swami) был разработан сотрудниками исследовательского центра IBM Almaden в 1993 году. С этой работы начался интерес к ассоциативным правилам ; на середину 90-х годов прошлого века пришелся пик исследовательских работ в этой области, и с тех пор каждый год появляется несколько новых алгоритмов. В алгоритме AIS кандидаты множества наборов генерируются и подсчитываются "на лету", во время сканирования базы данных.

Слайд 130





Алгоритм SETM
Создание этого алгоритма было мотивировано желанием использовать язык SQL для вычисления часто встречающихся наборов товаров. Как и алгоритм AIS, SETM также формирует кандидатов "на лету", основываясь на преобразованиях базы данных. Чтобы использовать стандартную операцию объединения языка SQL для формирования кандидата, SETM отделяет формирование кандидата от их подсчета.
Описание слайда:
Алгоритм SETM Создание этого алгоритма было мотивировано желанием использовать язык SQL для вычисления часто встречающихся наборов товаров. Как и алгоритм AIS, SETM также формирует кандидатов "на лету", основываясь на преобразованиях базы данных. Чтобы использовать стандартную операцию объединения языка SQL для формирования кандидата, SETM отделяет формирование кандидата от их подсчета.

Слайд 131






Неудобство алгоритмов AIS и SETM - излишнее генерирование и подсчет слишком многих кандидатов, которые в результате не оказываются часто встречающимися. Для улучшения их работы был предложен алгоритм Apriori
Работа данного алгоритма состоит из нескольких этапов, каждый из этапов состоит из следующих шагов:
формирование кандидатов;
подсчет кандидатов.
Описание слайда:
Неудобство алгоритмов AIS и SETM - излишнее генерирование и подсчет слишком многих кандидатов, которые в результате не оказываются часто встречающимися. Для улучшения их работы был предложен алгоритм Apriori Работа данного алгоритма состоит из нескольких этапов, каждый из этапов состоит из следующих шагов: формирование кандидатов; подсчет кандидатов.

Слайд 132






Формирование кандидатов (candidate generation) - этап, на котором алгоритм, сканируя базу данных, создает множество i-элементных кандидатов (i - номер этапа). На этом этапе поддержка кандидатов не рассчитывается.
Подсчет кандидатов (candidate counting) - этап, на котором вычисляется поддержка каждого i-элементного кандидата. Здесь же осуществляется отсечение кандидатов, поддержка которых меньше минимума, установленного пользователем (min_sup). Оставшиеся i-элементные наборы называем часто встречающимися.
Описание слайда:
Формирование кандидатов (candidate generation) - этап, на котором алгоритм, сканируя базу данных, создает множество i-элементных кандидатов (i - номер этапа). На этом этапе поддержка кандидатов не рассчитывается. Подсчет кандидатов (candidate counting) - этап, на котором вычисляется поддержка каждого i-элементного кандидата. Здесь же осуществляется отсечение кандидатов, поддержка которых меньше минимума, установленного пользователем (min_sup). Оставшиеся i-элементные наборы называем часто встречающимися.

Слайд 133


Data Mining - интеллектуальный анализ данных, слайд №133
Описание слайда:

Слайд 134





В зависимости от размера самого длинного часто встречающегося набора алгоритм Apriori сканирует базу данных определенное количество раз. Разновидности алгоритма Apriori, являющиеся его оптимизацией, предложены для сокращения количества сканирований базы данных, количества наборов-кандидатов или того и другого 
В зависимости от размера самого длинного часто встречающегося набора алгоритм Apriori сканирует базу данных определенное количество раз. Разновидности алгоритма Apriori, являющиеся его оптимизацией, предложены для сокращения количества сканирований базы данных, количества наборов-кандидатов или того и другого 
Были предложены следующие разновидности алгоритма Apriori: AprioriTID и AprioriHybrid.
AprioriTid
Интересная особенность этого алгоритма - то, что база данных D не используется для подсчета поддержки кандидатов набора товаров после первого прохода.
Описание слайда:
В зависимости от размера самого длинного часто встречающегося набора алгоритм Apriori сканирует базу данных определенное количество раз. Разновидности алгоритма Apriori, являющиеся его оптимизацией, предложены для сокращения количества сканирований базы данных, количества наборов-кандидатов или того и другого В зависимости от размера самого длинного часто встречающегося набора алгоритм Apriori сканирует базу данных определенное количество раз. Разновидности алгоритма Apriori, являющиеся его оптимизацией, предложены для сокращения количества сканирований базы данных, количества наборов-кандидатов или того и другого Были предложены следующие разновидности алгоритма Apriori: AprioriTID и AprioriHybrid. AprioriTid Интересная особенность этого алгоритма - то, что база данных D не используется для подсчета поддержки кандидатов набора товаров после первого прохода.

Слайд 135





AprioriHybrid
AprioriHybrid
Анализ времени работы алгоритмов Apriori и AprioriTid показывает, что в более ранних проходах Apriori добивается большего успеха, чем AprioriTid; однако AprioriTid работает лучше Apriori в более поздних проходах. Кроме того, они используют одну и ту же процедуру формирования наборов-кандидатов. Основанный на этом наблюдении, алгоритм AprioriHybrid предложен, чтобы объединить лучшие свойства алгоритмов Apriori и AprioriTid. AprioriHybrid использует алгоритм Apriori в начальных проходах и переходит к алгоритму AprioriTid, когда ожидается, что закодированный набор первоначального множества в конце прохода будет соответствовать возможностям памяти. Однако, переключение от Apriori до AprioriTid требует вовлечения дополнительных ресурсов.
Описание слайда:
AprioriHybrid AprioriHybrid Анализ времени работы алгоритмов Apriori и AprioriTid показывает, что в более ранних проходах Apriori добивается большего успеха, чем AprioriTid; однако AprioriTid работает лучше Apriori в более поздних проходах. Кроме того, они используют одну и ту же процедуру формирования наборов-кандидатов. Основанный на этом наблюдении, алгоритм AprioriHybrid предложен, чтобы объединить лучшие свойства алгоритмов Apriori и AprioriTid. AprioriHybrid использует алгоритм Apriori в начальных проходах и переходит к алгоритму AprioriTid, когда ожидается, что закодированный набор первоначального множества в конце прохода будет соответствовать возможностям памяти. Однако, переключение от Apriori до AprioriTid требует вовлечения дополнительных ресурсов.

Слайд 136






Один из них - алгоритм DHP, также называемый алгоритмом хеширования (J. Park, M. Chen and P. Yu, 1995 год). 
PARTITION алгоритм (A. Savasere, E. Omiecinski and S. Navathe, 1995 год). 
Алгоритм DIC, Dynamic Itemset Counting (S. Brin R. Motwani, J. Ullman and S. Tsur, 1997 год).
Описание слайда:
Один из них - алгоритм DHP, также называемый алгоритмом хеширования (J. Park, M. Chen and P. Yu, 1995 год). PARTITION алгоритм (A. Savasere, E. Omiecinski and S. Navathe, 1995 год). Алгоритм DIC, Dynamic Itemset Counting (S. Brin R. Motwani, J. Ullman and S. Tsur, 1997 год).

Слайд 137





Системы для визуализации многомерных данных

К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.
Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.
Описание слайда:
Системы для визуализации многомерных данных К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д. Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.

Слайд 138






Традиционные методы визуализации могут находить следующее применение:
представлять пользователю информацию в наглядном виде;
компактно описывать закономерности, присущие исходному набору данных;
снижать размерность или сжимать информацию;
восстанавливать пробелы в наборе данных;
находить шумы и выбросы в наборе данных.
Описание слайда:
Традиционные методы визуализации могут находить следующее применение: представлять пользователю информацию в наглядном виде; компактно описывать закономерности, присущие исходному набору данных; снижать размерность или сжимать информацию; восстанавливать пробелы в наборе данных; находить шумы и выбросы в наборе данных.

Слайд 139





Методы визуализации

Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы:
представление данных в одном, двух и трех измерениях;
представление данных в четырех и более измерениях.
Представление данных в одном, двух и трех измерениях
К этой группе методов относятся хорошо известные способы отображения информации, которые доступны для восприятия человеческим воображением. Практически любой современный инструмент Data Mining включает способы визуального представления из этой группы.
Описание слайда:
Методы визуализации Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы: представление данных в одном, двух и трех измерениях; представление данных в четырех и более измерениях. Представление данных в одном, двух и трех измерениях К этой группе методов относятся хорошо известные способы отображения информации, которые доступны для восприятия человеческим воображением. Практически любой современный инструмент Data Mining включает способы визуального представления из этой группы.

Слайд 140






В соответствии с количеством измерений представления это могут быть следующие способы:
одномерное (univariate) измерение, или 1-D ;
двумерное (bivariate) измерение, или 2-D ;
трехмерное или проекционное (projection) измерение, или 3-D.
Следует заметить, что наиболее естественно человеческий глаз воспринимает двухмерные представления информации.
Описание слайда:
В соответствии с количеством измерений представления это могут быть следующие способы: одномерное (univariate) измерение, или 1-D ; двумерное (bivariate) измерение, или 2-D ; трехмерное или проекционное (projection) измерение, или 3-D. Следует заметить, что наиболее естественно человеческий глаз воспринимает двухмерные представления информации.

Слайд 141






При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных:
его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания);
топологические особенности;
наличие трендов;
информацию о взаимном расположении данных;
существование других зависимостей, присущих исследуемому набору данных.
Описание слайда:
При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных: его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания); топологические особенности; наличие трендов; информацию о взаимном расположении данных; существование других зависимостей, присущих исследуемому набору данных.

Слайд 142





Представление данных в 4 х измерениях

Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.
Наиболее известные способы многомерного представления информации:
параллельные координаты ;
" лица Чернова ";
лепестковые диаграммы.
Описание слайда:
Представление данных в 4 х измерениях Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации. Наиболее известные способы многомерного представления информации: параллельные координаты ; " лица Чернова "; лепестковые диаграммы.

Слайд 143


Data Mining - интеллектуальный анализ данных, слайд №143
Описание слайда:

Слайд 144


Data Mining - интеллектуальный анализ данных, слайд №144
Описание слайда:

Слайд 145


Data Mining - интеллектуальный анализ данных, слайд №145
Описание слайда:

Слайд 146






Основные принципы компоновки визуальных средств представления информации:
Принцип лаконичности.
Принцип обобщения и унификации.
Принцип акцента на основных смысловых элементах.
Принцип автономности.
Принцип структурности.
Принцип стадийности.
Принцип использования привычных ассоциаций и стереотипов
Описание слайда:
Основные принципы компоновки визуальных средств представления информации: Принцип лаконичности. Принцип обобщения и унификации. Принцип акцента на основных смысловых элементах. Принцип автономности. Принцип структурности. Принцип стадийности. Принцип использования привычных ассоциаций и стереотипов

Слайд 147


Data Mining - интеллектуальный анализ данных, слайд №147
Описание слайда:

Слайд 148


Data Mining - интеллектуальный анализ данных, слайд №148
Описание слайда:



Похожие презентации
Mypresentation.ru
Загрузить презентацию