Интеллектуальный анализ данных - презентация, доклад, проект скачать

Нажмите для полного просмотра!

Интеллектуальный анализ данных, слайд №1

Интеллектуальный анализ данных, слайд №2

Интеллектуальный анализ данных, слайд №3

Интеллектуальный анализ данных, слайд №4

Интеллектуальный анализ данных, слайд №5

Интеллектуальный анализ данных, слайд №6

Интеллектуальный анализ данных, слайд №7

Интеллектуальный анализ данных, слайд №8

Интеллектуальный анализ данных, слайд №9

Интеллектуальный анализ данных, слайд №10

Интеллектуальный анализ данных, слайд №11

Интеллектуальный анализ данных, слайд №12

Интеллектуальный анализ данных, слайд №13

Интеллектуальный анализ данных, слайд №14

Интеллектуальный анализ данных, слайд №15

Интеллектуальный анализ данных, слайд №16

Интеллектуальный анализ данных, слайд №17

Интеллектуальный анализ данных, слайд №18

Интеллектуальный анализ данных, слайд №19

Интеллектуальный анализ данных, слайд №20

Интеллектуальный анализ данных, слайд №21

Интеллектуальный анализ данных, слайд №22

Интеллектуальный анализ данных, слайд №23

Интеллектуальный анализ данных, слайд №24

Интеллектуальный анализ данных, слайд №25

Интеллектуальный анализ данных, слайд №26

Интеллектуальный анализ данных, слайд №27

Интеллектуальный анализ данных, слайд №28

Интеллектуальный анализ данных, слайд №29

Интеллектуальный анализ данных, слайд №30

Интеллектуальный анализ данных, слайд №31

Интеллектуальный анализ данных, слайд №32

Интеллектуальный анализ данных, слайд №33

Интеллектуальный анализ данных, слайд №34

Содержание ▲

Вы можете ознакомиться и скачать презентацию на тему Интеллектуальный анализ данных. Доклад-сообщение содержит 34 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации

Слайд 1

Описание слайда:

Интеллектуальный анализ данных

Слайд 2

Описание слайда:

Интеллектуальный анализ данных Интеллектуальный анализ данных (англ. Data Mining) — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности и использование обнаруженных знаний для прогнозирования.

Слайд 3

Описание слайда:

Методы Data Mining Статистические Дескриптивный анализ и описание исходных данных. Анализ связей (корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ). Многомерный статистический анализ (компонентный анализ, дискриминантный анализ, многомерный регрессионный анализ, канонические корреляции и др.). Анализ временных рядов (динамические модели и прогнозирование).

Слайд 4

Описание слайда:

Кибернетические искусственные нейронные сети (распознавание, кластеризация, прогноз) эволюционное программирование генетические алгоритмы ассоциативная память (поиск аналогов, прототипов) – алгоритм Apriori нечеткая логика деревья решений (ID3, C4.5) системы обработки экспертных знаний Кластеризация (Гюстафсон-Кессель, Fuzzy C-means)

Слайд 5

Описание слайда:

Задачи Data Mining Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов. Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга. Сокращение описания — для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации. Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» — вместе с пивом часто покупают орешки. Прогнозирование Анализ отклонений — Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы. Визуализация

Слайд 6

Описание слайда:

Задача классификации Задача классификации – задача определения значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр – зависимая переменная, параметры участвующие в определении – независимые переменные

Слайд 7

Описание слайда:

Задачи, действия, приложения

Слайд 8

Описание слайда:

Пример (определения надежности клиентов фирмы) Первый уровень. Данные - база данных по клиентам. Есть данные о клиенте (возраст, пол, профессия, доход). Определенная часть клиентов, воспользовавшись продуктом фирмы, осталась ей верна; другие клиенты больше не приобретали продукты фирмы. На этом уровне мы определяем тип задачи - это задача классификации. На втором уровне определяем действие - прогностическое моделирование. С помощью прогностического моделирования мы с определенной долей уверенности можем отнести новый объект, в данном случае, нового клиента, к одному из известных классов - постоянный клиент, или это, скорее всего, его разовая покупка. На третьем уровне мы можем воспользоваться приложением для принятия решения. В результате приобретения знаний, фирма может существенно снизить расходы, например, на рекламу, зная заранее, каким из клиентов следует активно рассылать рекламные материалы.

Слайд 9

Описание слайда:

Модели Data Mining Предсказательные Строятся на основании набора данных с известными результатами. Используются для предсказания результатов на основании других наборов данных Модели классификации – описывают правила или наборы правил, в соответствии с которыми можно отнести описание любого нового объекта к одному из классов Модели последовательностей – описывают функции, позволяющие прогнозировать изменение непрерывных числовых параметров.

Слайд 10

Описание слайда:

Описательные Уделяют внимание сути зависимостей в наборе данных, взаимному влиянию различных факторов Регрессионные модели – описывают функциональные зависимости между зависимыми и независимыми показателями и переменными в понятной человеку форме Модели кластеров – описывают группы, на которые можно разделить объекты, данные о которых подвергаются анализу. Группируются объекты на основе данных, описывающих сущность объектов

Слайд 11

Описание слайда:

Модели исключений – описывают исключительные ситуации в записях, которые резко отличаются чем-либо от основного множества записей Итоговые модели – выявление ограничений на данные анализируемого массива Ассоциативные модели – выявление закономерностей между связанными событиями

Слайд 12

Описание слайда:

Деревья решений Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если ... то ...". Большинство из известных алгоритмов являются "жадными алгоритмами". Если один раз был выбран атрибут, и по нему было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный атрибут, в конечном итоге, оптимальное разбиение.

Слайд 13

Описание слайда:

На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Но наибольшее распространение и популярность получили следующие два: CART (Classification and Regression Tree) – это алгоритм построения бинарного дерева решений – дихотомической классификационной модели. Каждый узел дерева при разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии. C4.5 – алгоритм построения дерева решений, количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации.

Слайд 14

Описание слайда:

Преимущества быстрый процесс обучения; генерация правил в областях, где эксперту трудно формализовать свои знания; извлечение правил на естественном языке; интуитивно понятная классификационная модель; высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети); построение непараметрических моделей.

Слайд 15

Описание слайда:

Алгоритм CART Предназначен для решения задач классификации и регрессии. Особенности бинарное представление дерева решений; функция оценки качества разбиения; механизм отсечения дерева; алгоритм обработки пропущенных значений; построение деревьев регрессии.

Слайд 16

Описание слайда:

Бинарное представление Каждый узел дерева решений имеет двух потомков. На каждом шаге построения дерева правило, формируемое в узле, делит заданное множество примеров (обучающую выборку) на две части – часть, в которой выполняется правило (потомок – right) и часть, в которой правило не выполняется (потомок – left). Для выбора оптимального правила используется функция оценки качества разбиения.

Слайд 17

Описание слайда:

Функция оценки качества разбиения Обучение дерева решений относится к классу обучения с учителем, то есть обучающая и тестовая выборки содержат классифицированный набор примеров. Оценочная функция базируется на идее уменьшения нечистоты (неопределённости) в узле. Идея "нечистоты" формализована в индексе Gini где p[i] – вероятность (относительная частота) класса i в T

Слайд 18

Описание слайда:

Если набор Т разбивается на две части Т1 и Т2 с числом примеров в каждом N1 и N2 соответственно, тогда показатель качества разбиения будет равен Наилучшим считается то разбиение, для которого Ginisplit(T) минимально. Обозначим N – число примеров в узле – предке, L, R – число примеров соответственно в левом и правом потомке, li и ri – число экземпляров i-го класса в левом/правом потомке. Тогда качество разбиения оценивается по следующей формуле:

Слайд 19

Описание слайда:

Правила разбиения Если переменная числового типа, то в узле формируется правило вида xi

Слайд 20

Описание слайда:

Механизм отсечения дерева CART рассматривает отсечение как получение компромисса между двумя проблемами: получение дерева оптимального размера и получение точной оценки вероятности ошибочной классификации. Основная проблема отсечения – большое количество всех возможных отсеченных поддеревьев для одного дерева. Обозначим – число листов дерева, R(T) – ошибка классификации дерева, равная отношению числа неправильно классифицированных примеров к числу примеров в обучающей выборке. Определим – полную стоимость (оценку/показатель затраты-сложность) дерева Т как: , где – число листов (терминальных узлов) дерева, – некоторый параметр, изменяющийся от 0 до . Полная стоимость дерева состоит из двух компонент – ошибки классификации дерева и штрафа за его сложность. Если ошибка классификации дерева неизменна, тогда с увеличением полная стоимость дерева будет увеличиваться. Тогда в зависимости от менее ветвистое дерево, дающее большую ошибку классификации может стоить меньше, чем дающее меньшую ошибку, но более ветвистое.

Слайд 21

Описание слайда:

Алгоритм вычисления T1 из Tmax прост. Найти любую пару листов с общим предком, которые могут быть объединены, т.е. отсечены в родительский узел без увеличения ошибки классификации. R(t) = R(l) + R(r), где r и l – листы узла t. Продолжать пока таких пар больше не останется. Так мы получим дерево, имеющее такую же стоимость как Tmax при = 0, но менее ветвистое, чем Tmax

Слайд 22

Описание слайда:

Алгоритм вычисления последовательности деревьев while > {root node} do begin для всех нетерминальных узлов (!листов) в t Обойти сверху-вниз все узлы и обрезать те, где чтобы получить Tk+1 k = k + 1 end Узлы необходимо обходить сверху-вниз, чтобы не отсекать узлы, которые отсекутся сами собой, в результате отсечения n-го предка.

Слайд 23

Описание слайда:

Выбор финального дерева Наиболее очевидным и возможно наиболее эффективным является выбор финального дерева посредством тестирования на тестовой выборке. Естественно, качество тестирования во многом зависит от объема тестовой выборки и 'равномерности' данных, которые попали в обучающую и тестовую выборки.

Слайд 24

Описание слайда:

Алгоритм Apriori Масштабируемый алгоритм поиска ассоциативных правил На первом шаге необходимо найти часто встречающиеся наборы элементов, а затем, на втором, извлечь из них правила. Количество элементов в наборе будем называть размером набора, а набор, состоящий из k элементов, – k-элементным набором.

Слайд 25

Описание слайда:

Выявление часто встречающихся наборов элементов – операция, требующая много вычислительных ресурсов и, соответственно, времени. Примитивный подход к решению данной задачи – простой перебор всех возможных наборов элементов. Apriori использует одно из свойств поддержки, гласящее: поддержка любого набора элементов не может превышать минимальной поддержки любого из его подмножеств. Например, поддержка 3-элементного набора {Хлеб, Масло, Молоко} будет всегда меньше или равна поддержке 2-элементных наборов {Хлеб, Масло}, {Хлеб, Молоко}, {Масло, Молоко}. Дело в том, что любая транзакция, содержащая {Хлеб, Масло, Молоко}, также должна содержать {Хлеб, Масло}, {Хлеб, Молоко}, {Масло, Молоко}, причем обратное не верно. Это свойство носит название анти-монотонности и служит для снижения размерности пространства поиска.

Слайд 26

Описание слайда:

Слайд 27

Описание слайда:

Все возможные наборы элементов из I можно представить в виде решетки, начинающейся с пустого множества, затем на 1 уровне 1-элементные наборы, на 2-м – 2-элементные и т.д. На k уровне представлены k-элементные наборы, связанные со всеми своими (k-1)-элементными подмножествами. На первом шаге алгоритма подсчитываются 1-элементные часто встречающиеся наборы. Для этого необходимо пройтись по всему набору данных и подсчитать для них поддержку, т.е. сколько раз встречается в базе. Следующие шаги будут состоять из двух частей: генерации потенциально часто встречающихся наборов элементов (их называют кандидатами) и подсчета поддержки для кандидатов.

Слайд 28

Описание слайда:

Общее описание алгоритма F1 = {часто встречающиеся 1-элементные наборы} для (k=2; Fk-1 ∅; k++) { Ck = Apriorigen(Fk-1) // генерация кандидатов для всех транзакций t∈T { Ct = subset(Ck, t) // удаление избыточных правил для всех кандидатов c ∈ Ct c.count ++ } Fk = { c ∈ Ck | c.count >= minsupport} // отбор кандидатов } Результат ∪Fk

Слайд 29

Описание слайда:

Генерация кандидатов Объединение. Каждый кандидат Ck будет формироваться путем расширения часто встречающегося набора размера (k-1) добавлением элемента из другого (k-1)- элементного набора. Алгоритм этой функции Apriorigen в виде небольшого SQL-подобного запроса. insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 From Fk-1 p, Fk-1 q where p.item1= q.item1, p.item2 = q.item2, … , p.itemk-2 = q.itemk-2, p.itemk-1 < q.itemk-1 Удаление избыточных правил. На основании свойства анти-монотонности, следует удалить все наборы c Ck если хотя бы одно из его (k-1) подмножеств не является часто встречающимся.

Слайд 30

Описание слайда:

Подсчет поддержки каждого кандидата Используется подход, основанный на хранении кандидатов в хэш-дереве. Внутренние узлы дерева содержат хэш-таблицы с указателями на потомков, а листья – на кандидатов. Хэш-дерево строится каждый раз, когда формируются кандидаты. Первоначально дерево состоит только из корня, который является листом, и не содержит никаких кандидатов-наборов. Каждый раз когда формируется новый кандидат, он заносится в корень дерева и так до тех пор, пока количество кандидатов в корне-листе не превысит некоего порога. Как только количество кандидатов становится больше порога, корень преобразуется в хэш-таблицу, т.е. становится внутренним узлом, и для него создаются потомки-листья. И все примеры распределяются по узлам-потомкам согласно хэш-значениям элементов, входящих в набор, и т.д. Каждый новый кандидат хэшируется на внутренних узлах, пока он не достигнет первого узла-листа, где он и будет храниться, пока количество наборов опять же не превысит порога.

Слайд 31

Описание слайда:

Используя хэш-дерево, легко подсчитать поддержку для каждого кандидата. Для этого нужно "пропустить" каждую транзакцию через дерево и увеличить счетчики для тех кандидатов, чьи элементы также содержатся и в транзакции. На корневом уровне хэш-функция применяется к каждому элементу из транзакции. Далее, на втором уровне, хэш-функция применяется ко вторым элементам и т.д. На k-уровне хэшируется k-элемент. И так до тех пор, пока не достигнем листа. Если кандидат, хранящийся в листе, является подмножеством рассматриваемой транзакции, тогда увеличиваем счетчик поддержки этого кандидата на единицу.

Слайд 32

Описание слайда:

После того, как каждая транзакция из исходного набора данных "пропущена" через дерево, можно проверить удовлетворяют ли значения поддержки кандидатов минимальному порогу. Кандидаты, для которых это условие выполняется, переносятся в разряд часто встречающихся. Кроме того, следует запомнить и поддержку набора, она нам пригодится при извлечении правил. Эти же действия применяются для нахождения (k+1)-элементных наборов и т.д.

Слайд 33

Описание слайда:

Генерация правил для подсчета достоверности правила достаточно знать поддержку самого набора и множества, лежащего в условии правила. Например, имеется часто встречающийся набор {A, B, C} и требуется подсчитать достоверность для правила AB->C. Поддержка самого набора нам известна, но и его множество {A, B}, лежащее в условии правила, также является часто встречающимся в силу свойства анти-монотонности, и значит его поддержка нам известна. Тогда мы легко сможем подсчитать достоверность. Чтобы извлечь правило из часто встречающегося набора F, следует найти все его непустые подмножества. И для каждого подмножества s мы сможем сформулировать правило s->(F – s), если достоверность правила conf(s->(F – s)) = supp(F)/supp(s) не меньше порога minconf.

Слайд 34

Описание слайда:

Заметим, что числитель остается постоянным. Тогда достоверность имеет минимальное значение, если знаменатель имеет максимальное значение, а это происходит в том случае, когда в условии правила имеется набор, состоящий из одного элемента. Все супермножества данного множества имеют меньшую или равную поддержку и, соответственно, большее значение достоверности. Это свойство может быть использовано при извлечении правил. Если мы начнем извлекать правила, рассматривая сначала только один элемент в условии правила, и это правило имеет необходимую поддержку, тогда все правила, где в условии стоят супермножества этого элемента, также имеют значение достоверности выше заданного порога.