🗊Презентация Деревья принятия решения

Нажмите для полного просмотра!
Деревья принятия решения, слайд №1Деревья принятия решения, слайд №2Деревья принятия решения, слайд №3Деревья принятия решения, слайд №4Деревья принятия решения, слайд №5Деревья принятия решения, слайд №6Деревья принятия решения, слайд №7Деревья принятия решения, слайд №8Деревья принятия решения, слайд №9Деревья принятия решения, слайд №10Деревья принятия решения, слайд №11Деревья принятия решения, слайд №12Деревья принятия решения, слайд №13Деревья принятия решения, слайд №14

Вы можете ознакомиться и скачать презентацию на тему Деревья принятия решения. Доклад-сообщение содержит 14 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Деревья принятия решений
Описание слайда:
Деревья принятия решений

Слайд 2





Data Mining
  └ Деревья решений
       └ Введение
Дерево решений – представленный в виде связного ациклического графа план, при помощи которого оценивается значение целевого атрибута объекта по набору значений независимых атрибутов.
Описание слайда:
Data Mining └ Деревья решений └ Введение Дерево решений – представленный в виде связного ациклического графа план, при помощи которого оценивается значение целевого атрибута объекта по набору значений независимых атрибутов.

Слайд 3





Data Mining
  └ Деревья решений
       └ Введение
Если зависимая переменная принимает дискретные значения – решает задачу классификации. Если непрерывные – задачу регрессии (численного прогнозирования).
Впервые предложены в конце 50х годов прошлого века.
При проходе от корня к листьям дерева определяется значение зависимой переменной. Внутренний узел представляет разбиение множества возможных значений той или иной независимой переменной. Атрибуты, соответствующие внутренним узлам дерева – атрибуты расщепления (прогнозирующие атрибуты).
Каждая ветвь от внутреннего узла отмечается предикатом расщепления.
Информация об атрибутах и предикатах расщепления в узле – критерий расщепления.
Описание слайда:
Data Mining └ Деревья решений └ Введение Если зависимая переменная принимает дискретные значения – решает задачу классификации. Если непрерывные – задачу регрессии (численного прогнозирования). Впервые предложены в конце 50х годов прошлого века. При проходе от корня к листьям дерева определяется значение зависимой переменной. Внутренний узел представляет разбиение множества возможных значений той или иной независимой переменной. Атрибуты, соответствующие внутренним узлам дерева – атрибуты расщепления (прогнозирующие атрибуты). Каждая ветвь от внутреннего узла отмечается предикатом расщепления. Информация об атрибутах и предикатах расщепления в узле – критерий расщепления.

Слайд 4





Data Mining
  └ Деревья решений
       └ Введение
Описание слайда:
Data Mining └ Деревья решений └ Введение

Слайд 5





Data Mining
  └ Деревья решений
       └ Преимущества и недостатки
Преимущества деревьев решений:
Просты в понимании и интерпретации. 
Не требуют подготовки данных. 
Используют модель «белого ящика».
Позволяют оценить модель при помощи статистических тестов. 
Дают возможность извлекать из базы данных правила на естественном языке.
Позволяют создавать классификационные модели в тех областях, где аналитику достаточно сложно формализовать знания.
Алгоритм конструирования дерева решений не требует от пользователя выбора входных атрибутов.
Быстро обучаются.
Описание слайда:
Data Mining └ Деревья решений └ Преимущества и недостатки Преимущества деревьев решений: Просты в понимании и интерпретации. Не требуют подготовки данных. Используют модель «белого ящика». Позволяют оценить модель при помощи статистических тестов. Дают возможность извлекать из базы данных правила на естественном языке. Позволяют создавать классификационные модели в тех областях, где аналитику достаточно сложно формализовать знания. Алгоритм конструирования дерева решений не требует от пользователя выбора входных атрибутов. Быстро обучаются.

Слайд 6





Data Mining
  └ Деревья решений
       └ Преимущества и недостатки
Недостатки деревьев решений
Проблема получения оптимального дерева решений бывает NP-полной.
Могут появиться слишком сложные конструкции, которые при этом недостаточно полно представляют данные. 
Существуют концепты, которые сложно понять из модели, так как модель описывает их сложным путем.
Для данных, которые включают категориальные переменные с большим набором уровней, больший информационный вес присваивается тем атрибутам, которые имеют большее количество уровней.
Описание слайда:
Data Mining └ Деревья решений └ Преимущества и недостатки Недостатки деревьев решений Проблема получения оптимального дерева решений бывает NP-полной. Могут появиться слишком сложные конструкции, которые при этом недостаточно полно представляют данные. Существуют концепты, которые сложно понять из модели, так как модель описывает их сложным путем. Для данных, которые включают категориальные переменные с большим набором уровней, больший информационный вес присваивается тем атрибутам, которые имеют большее количество уровней.

Слайд 7





Data Mining
  └ Деревья решений
       └ Построение
Выбираем целевой атрибут
Выбираем критерий расщепления
Разделяем обучающую выборку
Исключаем атрибут расщепления из выборки
Для всех полученных подвыборок переходим на шаг 2
Описание слайда:
Data Mining └ Деревья решений └ Построение Выбираем целевой атрибут Выбираем критерий расщепления Разделяем обучающую выборку Исключаем атрибут расщепления из выборки Для всех полученных подвыборок переходим на шаг 2

Слайд 8





Data Mining
  └ Деревья решений
       └ Критерий прироста информации
Ансамбль – множество сообщений, каждому из которых соответствует вероятность посылки. Пусть X = {x1, x2, …, xn} – наш ансамбль. Соответственно имеем p(x1) = p1 , p(x2) = p2, …, p(xn) = pn.
Если x1, x2, …, xn независимы и некоторый xi обязательно отправляется,
 то 		     .
Мера средней неопределённости ансамбля до посылки сообщения – информационная энтропия ансамбля.
Описание слайда:
Data Mining └ Деревья решений └ Критерий прироста информации Ансамбль – множество сообщений, каждому из которых соответствует вероятность посылки. Пусть X = {x1, x2, …, xn} – наш ансамбль. Соответственно имеем p(x1) = p1 , p(x2) = p2, …, p(xn) = pn. Если x1, x2, …, xn независимы и некоторый xi обязательно отправляется, то . Мера средней неопределённости ансамбля до посылки сообщения – информационная энтропия ансамбля.

Слайд 9





Data Mining
  └ Деревья решений
       └ Критерий прироста информации
Информационная энтропия:
Мера неопределённости выбора сообщения из ансамбля
Численно равна среднему количеству бит, необходимых для однозначной кодировки всех сообщений ансамбля
Условная энтропия: для ансамблей, в которых известна вероятность появления одного сообщения после другого, или для описания потерь в канале с помехами
Описание слайда:
Data Mining └ Деревья решений └ Критерий прироста информации Информационная энтропия: Мера неопределённости выбора сообщения из ансамбля Численно равна среднему количеству бит, необходимых для однозначной кодировки всех сообщений ансамбля Условная энтропия: для ансамблей, в которых известна вероятность появления одного сообщения после другого, или для описания потерь в канале с помехами

Слайд 10





Data Mining
  └ Деревья решений
       └ Критерий прироста информации
Взаимная энтропия двух ансамблей:
Описание слайда:
Data Mining └ Деревья решений └ Критерий прироста информации Взаимная энтропия двух ансамблей:

Слайд 11





Data Mining
  └ Деревья решений
       └ Критерий прироста информации
Энтропия:
Неотрицательна: H(X)≥0
Ограничена сверху: 
Для независимых A и B справедливо: H(AB) = H(A)+H(B)
Описание слайда:
Data Mining └ Деревья решений └ Критерий прироста информации Энтропия: Неотрицательна: H(X)≥0 Ограничена сверху: Для независимых A и B справедливо: H(AB) = H(A)+H(B)

Слайд 12





Data Mining
  └ Деревья решений
       └ Критерий прироста информации
Взаимная информация (information gain):
I(Y|X) = H(Y) – H(Y|X) – мера неопределённости, снятой посылкой сообщения из ансамбля.
В случае с конструированием деревьев решений целесообразно использовать её в качестве критерия выбора новых атрибутов расщепления.
Описание слайда:
Data Mining └ Деревья решений └ Критерий прироста информации Взаимная информация (information gain): I(Y|X) = H(Y) – H(Y|X) – мера неопределённости, снятой посылкой сообщения из ансамбля. В случае с конструированием деревьев решений целесообразно использовать её в качестве критерия выбора новых атрибутов расщепления.

Слайд 13





Data Mining
  └ Деревья решений
       └ Критерий прироста информации
При наличии непрерывных атрибутов надо бы поискать пороговые значения, которые надо выставлять в узлах. Для этого тоже можно хорошо приспособить энтропию и information gain. Надо определить, какие значения непрерывных атрибутов дадут наибольший прирост.
Пороговая энтропия:
Описание слайда:
Data Mining └ Деревья решений └ Критерий прироста информации При наличии непрерывных атрибутов надо бы поискать пороговые значения, которые надо выставлять в узлах. Для этого тоже можно хорошо приспособить энтропию и information gain. Надо определить, какие значения непрерывных атрибутов дадут наибольший прирост. Пороговая энтропия:

Слайд 14





Data Mining
  └ Деревья решений
       └ Алгоритм построения
На старте имеем таблицу примеров и набор атрибутов с заранее определённым целевым.
Если все примеры принадлежат одному классу, возвратим соответствующий лист.
Если множество атрибутов пусто, вернуть наиболее часто встречающийся в таблице примеров класс.
Найти атрибут с наибольшим приростом информации (а для количественных атрибутов также найти оптимальный порог).
Создать узел дерева для найденного атрибута:
Поместить атрибут в узел
Для всех возможных значений атрибута добавить новую ветвь дерева с соответствующим предикатом и рекурсивно вызвать алгоритм для разделённой по атрибуту обучающей выборки
Завершить, если 
атрибуты закончились
Все элементы таблицы примеров имеют одно значение целевого атрибута
Описание слайда:
Data Mining └ Деревья решений └ Алгоритм построения На старте имеем таблицу примеров и набор атрибутов с заранее определённым целевым. Если все примеры принадлежат одному классу, возвратим соответствующий лист. Если множество атрибутов пусто, вернуть наиболее часто встречающийся в таблице примеров класс. Найти атрибут с наибольшим приростом информации (а для количественных атрибутов также найти оптимальный порог). Создать узел дерева для найденного атрибута: Поместить атрибут в узел Для всех возможных значений атрибута добавить новую ветвь дерева с соответствующим предикатом и рекурсивно вызвать алгоритм для разделённой по атрибуту обучающей выборки Завершить, если атрибуты закончились Все элементы таблицы примеров имеют одно значение целевого атрибута



Похожие презентации
Mypresentation.ru
Загрузить презентацию