🗊Презентация Многомерный анализ данных ( лекция 9)

Категория: Математика
Нажмите для полного просмотра!
Многомерный анализ данных ( лекция 9), слайд №1Многомерный анализ данных ( лекция 9), слайд №2Многомерный анализ данных ( лекция 9), слайд №3Многомерный анализ данных ( лекция 9), слайд №4Многомерный анализ данных ( лекция 9), слайд №5Многомерный анализ данных ( лекция 9), слайд №6Многомерный анализ данных ( лекция 9), слайд №7Многомерный анализ данных ( лекция 9), слайд №8Многомерный анализ данных ( лекция 9), слайд №9Многомерный анализ данных ( лекция 9), слайд №10Многомерный анализ данных ( лекция 9), слайд №11Многомерный анализ данных ( лекция 9), слайд №12Многомерный анализ данных ( лекция 9), слайд №13Многомерный анализ данных ( лекция 9), слайд №14Многомерный анализ данных ( лекция 9), слайд №15Многомерный анализ данных ( лекция 9), слайд №16Многомерный анализ данных ( лекция 9), слайд №17Многомерный анализ данных ( лекция 9), слайд №18Многомерный анализ данных ( лекция 9), слайд №19Многомерный анализ данных ( лекция 9), слайд №20Многомерный анализ данных ( лекция 9), слайд №21Многомерный анализ данных ( лекция 9), слайд №22Многомерный анализ данных ( лекция 9), слайд №23Многомерный анализ данных ( лекция 9), слайд №24

Содержание

Вы можете ознакомиться и скачать презентацию на тему Многомерный анализ данных ( лекция 9). Доклад-сообщение содержит 24 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Математические методы в биологии
Блок 4. Многомерный анализ данных
Лекция 9
Описание слайда:
Математические методы в биологии Блок 4. Многомерный анализ данных Лекция 9

Слайд 2





Что такое data mining?
Это процесс нетривиального извлечения новой, полезной и экстраполируемой информации из большого массива многомерных данных.
Другими словами, это поиск структуры в данных.
Исходные данные – совокупность численных векторов (измерений)
Пример. Набор данных iris – 150 наблюдений, представляющих три вида ирисов (50 наблюдений для каждого). Каждый ирис – это вектор вида (Длина_чашелистика, Ширина_чашелистика,  Длина_лепестка,  Ширина_лепестка). Каждый ирис – точка в четырёхмерном пространстве.
Описание слайда:
Что такое data mining? Это процесс нетривиального извлечения новой, полезной и экстраполируемой информации из большого массива многомерных данных. Другими словами, это поиск структуры в данных. Исходные данные – совокупность численных векторов (измерений) Пример. Набор данных iris – 150 наблюдений, представляющих три вида ирисов (50 наблюдений для каждого). Каждый ирис – это вектор вида (Длина_чашелистика, Ширина_чашелистика, Длина_лепестка, Ширина_лепестка). Каждый ирис – точка в четырёхмерном пространстве.

Слайд 3





Классификация многомерных методов
Описание слайда:
Классификация многомерных методов

Слайд 4





Ещё один пример «парной» визуализации:
Описание слайда:
Ещё один пример «парной» визуализации:

Слайд 5





Пиктограммы – весёлый и лёгкий способ находить похожие объекты
Лица Чернова
Описание слайда:
Пиктограммы – весёлый и лёгкий способ находить похожие объекты Лица Чернова

Слайд 6





Методы понижения размерности: анализ главных компонент (PCA)
Описание слайда:
Методы понижения размерности: анализ главных компонент (PCA)

Слайд 7





Как преобразовать 4х-мерное пространство к 2х-мерному?
Описание слайда:
Как преобразовать 4х-мерное пространство к 2х-мерному?

Слайд 8





График biplot графически увязывает старые и новые координаты
Описание слайда:
График biplot графически увязывает старые и новые координаты

Слайд 9





Применение метода главных компонент для анализа дифференциальной экспрессии
Проверка самосогласованности реплик (повторностей)
Описание слайда:
Применение метода главных компонент для анализа дифференциальной экспрессии Проверка самосогласованности реплик (повторностей)

Слайд 10





Методы понижения размерности: кластеризация
Кластеризация – разбиение большого набора объектов на более мелкие наборы (кластеры)
Основная идея: объекты внутри кластера должны быть более «похожи» между собой, нежели объекты из разных кластеров.
Для того чтобы формировать кластеры, мы должны научиться измерять расстояния (метрики) между объектами
Основные метрики:
Расстояние Евклида (1)
Квадрат расстояния Евклида (2)
Расстояние Чебышева (3)
Манхэттенское расстояние (4)
Описание слайда:
Методы понижения размерности: кластеризация Кластеризация – разбиение большого набора объектов на более мелкие наборы (кластеры) Основная идея: объекты внутри кластера должны быть более «похожи» между собой, нежели объекты из разных кластеров. Для того чтобы формировать кластеры, мы должны научиться измерять расстояния (метрики) между объектами Основные метрики: Расстояние Евклида (1) Квадрат расстояния Евклида (2) Расстояние Чебышева (3) Манхэттенское расстояние (4)

Слайд 11





Классификация методов кластеризации
Иерархическая / плоская
Комплексная древоподобная система разбиений а) / одно и только одно разбиение на кластеры одного и того же уровня b)
Точная / неточная
Каждый объект принадлежит только одному кластеру c) / каждый объект может принадлежать разным кластерам со своими вероятностями d)
Описание слайда:
Классификация методов кластеризации Иерархическая / плоская Комплексная древоподобная система разбиений а) / одно и только одно разбиение на кластеры одного и того же уровня b) Точная / неточная Каждый объект принадлежит только одному кластеру c) / каждый объект может принадлежать разным кластерам со своими вероятностями d)

Слайд 12





Кластеризация методом k-средних (k-means)
Основные «правила игры»:
k – число кластеров – выбирается заранее
Начальные координаты центров кластеров выбираются случайным образом (рис.1)
Основная идея – минимизировать целевую функцию , где n – число объектов в кластере, а di – расстояние между i-ым объектом и центром кластера (рис.2)
На каждой итерации d – центр кластера – сдвигается в центр масс (точку, каждая координата которой – среднее соответствующих координат объектов кластера)  (рис.3)
Описание слайда:
Кластеризация методом k-средних (k-means) Основные «правила игры»: k – число кластеров – выбирается заранее Начальные координаты центров кластеров выбираются случайным образом (рис.1) Основная идея – минимизировать целевую функцию , где n – число объектов в кластере, а di – расстояние между i-ым объектом и центром кластера (рис.2) На каждой итерации d – центр кластера – сдвигается в центр масс (точку, каждая координата которой – среднее соответствующих координат объектов кластера) (рис.3)

Слайд 13





Замечательная визуализация!
https://www.naftaliharris.com/blog/visualizing-k-means-clustering/
Шаг 0. Начальное положение точек                 Шаг 1. Бросаем начальные центры кластеров
Описание слайда:
Замечательная визуализация! https://www.naftaliharris.com/blog/visualizing-k-means-clustering/ Шаг 0. Начальное положение точек Шаг 1. Бросаем начальные центры кластеров

Слайд 14





Шаг 4. «Перекрашиваем» точки, 
Шаг 4. «Перекрашиваем» точки, 
которые находятся «на чужой территории»
Описание слайда:
Шаг 4. «Перекрашиваем» точки, Шаг 4. «Перекрашиваем» точки, которые находятся «на чужой территории»

Слайд 15





И так до тех пор, пока есть что «перекрашивать»!
Описание слайда:
И так до тех пор, пока есть что «перекрашивать»!

Слайд 16





Как помочь анализу методом k-средних?
Совет 1. Максимально растаскивать начальные центры кластеров
Совет 2. Повторить кластеризацию несколько раз
Совет 3. Разумно выбирать число кластеров
SSW – внутригрупповая сумма квадратов расстояний точек от центра (наша целевая функция , по сути)
Можно нарисовать график зависимости  как функции от числа кластеров:
Описание слайда:
Как помочь анализу методом k-средних? Совет 1. Максимально растаскивать начальные центры кластеров Совет 2. Повторить кластеризацию несколько раз Совет 3. Разумно выбирать число кластеров SSW – внутригрупповая сумма квадратов расстояний точек от центра (наша целевая функция , по сути) Можно нарисовать график зависимости как функции от числа кластеров:

Слайд 17





Иерархическая кластеризация
Два принципиально разных подхода:
Снизу-вверх (каждая точка – один кластер, дальше кластеры объединяются в кластеры более высокого порядка)
Сверху-вниз (всё множество точек – один кластер наивысшего порядка, а затем он делится на множество более мелких)
Описание слайда:
Иерархическая кластеризация Два принципиально разных подхода: Снизу-вверх (каждая точка – один кластер, дальше кластеры объединяются в кластеры более высокого порядка) Сверху-вниз (всё множество точек – один кластер наивысшего порядка, а затем он делится на множество более мелких)

Слайд 18





Как вычислять расстояния между кластерами?
Метод ближайшего соседа
(метод одиночной связи)
Метод дальнего соседа
(метод полной связи)
Метод попарных средних
Центроидный метод
Описание слайда:
Как вычислять расстояния между кластерами? Метод ближайшего соседа (метод одиночной связи) Метод дальнего соседа (метод полной связи) Метод попарных средних Центроидный метод

Слайд 19





Иерархическая кластеризация 30 ирисов (по 10 каждого вида)
Описание слайда:
Иерархическая кластеризация 30 ирисов (по 10 каждого вида)

Слайд 20





Задача классификации
Похожа на кластеризацию, но деление на группы происходит с учётом конкретных признаков объектов
Например, классификация биологических видов
Классификация – пример обучения с учителем:
Набор исходных данных делится на 2 множества – обучающее и тестовое:
Обучающее используется для конструирования модели (≈70% общего объёма данных)
Тестовое используется для проверки модели (≈30% общего объёма данных)
Таким образом, процесс классификации состоит из двух этапов:
конструирования модели и её использования.
Описание слайда:
Задача классификации Похожа на кластеризацию, но деление на группы происходит с учётом конкретных признаков объектов Например, классификация биологических видов Классификация – пример обучения с учителем: Набор исходных данных делится на 2 множества – обучающее и тестовое: Обучающее используется для конструирования модели (≈70% общего объёма данных) Тестовое используется для проверки модели (≈30% общего объёма данных) Таким образом, процесс классификации состоит из двух этапов: конструирования модели и её использования.

Слайд 21





Базовый алгоритм классификации
Находим параметр, по которому группа разделяется лучше всего
Делим данные на 2 группы (листья)
Внутри каждой группы снова находим параметр, разделяющий группу лучше всего
Продолжаем, пока листья не окажутся достаточно маленькими или «чистыми»
Описание слайда:
Базовый алгоритм классификации Находим параметр, по которому группа разделяется лучше всего Делим данные на 2 группы (листья) Внутри каждой группы снова находим параметр, разделяющий группу лучше всего Продолжаем, пока листья не окажутся достаточно маленькими или «чистыми»

Слайд 22


Многомерный анализ данных ( лекция 9), слайд №22
Описание слайда:

Слайд 23





Дерево принятия решений для ирисов
Описание слайда:
Дерево принятия решений для ирисов

Слайд 24






Спасибо за внимание!
До встречи на практике!
Описание слайда:
Спасибо за внимание! До встречи на практике!



Похожие презентации
Mypresentation.ru
Загрузить презентацию