🗊Презентация Процессы добычи данных

Категория: Информатика
Нажмите для полного просмотра!
Процессы добычи данных, слайд №1Процессы добычи данных, слайд №2Процессы добычи данных, слайд №3Процессы добычи данных, слайд №4Процессы добычи данных, слайд №5Процессы добычи данных, слайд №6Процессы добычи данных, слайд №7Процессы добычи данных, слайд №8Процессы добычи данных, слайд №9Процессы добычи данных, слайд №10Процессы добычи данных, слайд №11Процессы добычи данных, слайд №12Процессы добычи данных, слайд №13Процессы добычи данных, слайд №14Процессы добычи данных, слайд №15Процессы добычи данных, слайд №16Процессы добычи данных, слайд №17Процессы добычи данных, слайд №18

Вы можете ознакомиться и скачать презентацию на тему Процессы добычи данных. Доклад-сообщение содержит 18 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





OLAP. Процессы добычи данных.
Лекция №7 для студентов 4-го курса специальности «Прикладная информатика»
Описание слайда:
OLAP. Процессы добычи данных. Лекция №7 для студентов 4-го курса специальности «Прикладная информатика»

Слайд 2





Вопросы
Архитектуры OLAP-серверов
Процессы добычи данных
Дополнительные вопросы OLAP и добычи данных
Описание слайда:
Вопросы Архитектуры OLAP-серверов Процессы добычи данных Дополнительные вопросы OLAP и добычи данных

Слайд 3





1 Архитектуры OLAP-серверов
  Традиционные реляционные серверы не обеспе-чивают эффективное выполнение сложных OLAP-запросов и поддержку  многомерных представле-ний данных. Но, тем не менее, три типа реляцион-ных серверов баз данных:
 реляционной, 
 многомерной и
 гибридной оперативной аналитической  обработки 
позволяют выполнять OLAP-операции в хранили-щах данных, построенных с использованием сис-тем управления реляционными базами данных.
Описание слайда:
1 Архитектуры OLAP-серверов Традиционные реляционные серверы не обеспе-чивают эффективное выполнение сложных OLAP-запросов и поддержку многомерных представле-ний данных. Но, тем не менее, три типа реляцион-ных серверов баз данных: реляционной, многомерной и гибридной оперативной аналитической обработки позволяют выполнять OLAP-операции в хранили-щах данных, построенных с использованием сис-тем управления реляционными базами данных.

Слайд 4





1.1 ROLAP
Размещаются между основным реляционным сервером, где находится хранилище данных и клиентским инструментари-ем переднего плана.
Серверы  ROLAP  поддерживают  многомерные  OLAP-запросы  и,  как  правило,  оптимизированы для  конкретных реляционных  серверов. Они  указывают, какие  представле-ния   должны   быть   материализованы, возможные  запросы пользователей  в терминах  соответствующих  материализо-ванных представлений, и  генерируют  сложные  SQL-серве-ры для основного сервера.
Они  также  предусматривают дополнительные  службы, та-кие как планирование  запросов и  распределение ресурсов. Серверы ROLAP наследуют возможности масштабирования и  работы с  транзакциями  реляционных  систем,  однако су-щественные различия между запросами в стиле OLAP и SQL могут стать причиной низкой производительности.
Описание слайда:
1.1 ROLAP Размещаются между основным реляционным сервером, где находится хранилище данных и клиентским инструментари-ем переднего плана. Серверы ROLAP поддерживают многомерные OLAP-запросы и, как правило, оптимизированы для конкретных реляционных серверов. Они указывают, какие представле-ния должны быть материализованы, возможные запросы пользователей в терминах соответствующих материализо-ванных представлений, и генерируют сложные SQL-серве-ры для основного сервера. Они также предусматривают дополнительные службы, та-кие как планирование запросов и распределение ресурсов. Серверы ROLAP наследуют возможности масштабирования и работы с транзакциями реляционных систем, однако су-щественные различия между запросами в стиле OLAP и SQL могут стать причиной низкой производительности.

Слайд 5





Нехватка производительности становится менее острой, бла-годаря ориентированным на задачи OLAP расширениям SQL, реализованным  в серверах реляционных  баз данных наподо-бие  Oracle,  IBM DB2  и  Microsoft  SQL  Server.  Такие  функции, как median, mode, rank, percentile дополняют агрегатные фун-кции. К другим дополнительным возможностям относятся аг-регатные  вычисления  на  перемещающихся  окнах,  текущие сводные  значения и точки  прерывания для улучшенной  под-держки формирования отчетов. 
Нехватка производительности становится менее острой, бла-годаря ориентированным на задачи OLAP расширениям SQL, реализованным  в серверах реляционных  баз данных наподо-бие  Oracle,  IBM DB2  и  Microsoft  SQL  Server.  Такие  функции, как median, mode, rank, percentile дополняют агрегатные фун-кции. К другим дополнительным возможностям относятся аг-регатные  вычисления  на  перемещающихся  окнах,  текущие сводные  значения и точки  прерывания для улучшенной  под-держки формирования отчетов. 
Многомерные электронные таблицы требуют группировки по различным  наборам  атрибутов.  Для  того  чтобы  удовлетво-рить  эти  требования  Джим  Грей  и  его  коллеги  предлагают расширить  SQL  двумя  операторами — roll-up и cube. Свертка списка атрибутов, включающего продукт, год и город, помо-гает находить ответы на вопросы, в которых фигурируют: 
группировка по продуктам, годам и городам; 
группировка по продуктам и годам; 
группировка по продуктам.
Описание слайда:
Нехватка производительности становится менее острой, бла-годаря ориентированным на задачи OLAP расширениям SQL, реализованным в серверах реляционных баз данных наподо-бие Oracle, IBM DB2 и Microsoft SQL Server. Такие функции, как median, mode, rank, percentile дополняют агрегатные фун-кции. К другим дополнительным возможностям относятся аг-регатные вычисления на перемещающихся окнах, текущие сводные значения и точки прерывания для улучшенной под-держки формирования отчетов. Нехватка производительности становится менее острой, бла-годаря ориентированным на задачи OLAP расширениям SQL, реализованным в серверах реляционных баз данных наподо-бие Oracle, IBM DB2 и Microsoft SQL Server. Такие функции, как median, mode, rank, percentile дополняют агрегатные фун-кции. К другим дополнительным возможностям относятся аг-регатные вычисления на перемещающихся окнах, текущие сводные значения и точки прерывания для улучшенной под-держки формирования отчетов. Многомерные электронные таблицы требуют группировки по различным наборам атрибутов. Для того чтобы удовлетво-рить эти требования Джим Грей и его коллеги предлагают расширить SQL двумя операторами — roll-up и cube. Свертка списка атрибутов, включающего продукт, год и город, помо-гает находить ответы на вопросы, в которых фигурируют: группировка по продуктам, годам и городам; группировка по продуктам и годам; группировка по продуктам.

Слайд 6





1.2 MOLAP   
Серверная архитектура  напрямую  поддерживает  многомер-ные  представления  данных  с помощью многомерного меха-низма хранения. MOLAP позволяет реализовывать  многомер-ные запросы на уровне хранения путем установки прямого со-ответствия. 
Основное  преимущество заключается  в  превосходных свой-ствах индексации; ее недостаток – низкий коэффициент испо-льзования  дискового  пространства, особенно в случае разре-женных данных. 
Многие серверы MOLAP при работе с разреженными множест-вами данных используют двухуровневую организацию памяти и сжатие. При двухуровневой  организации пользователь либо непосредственно, либо с помощью специальных инструментов проектирования, идентифицирует набор подмассивов. Индек-сировать  эти  массивы  меньшего  размера  можно  с помощью традиционных индексных структур. Многие из методик, разра-ботанных  для  статистических  баз  данных,  подходят  и  для MOLAP. Серверы  MOLAP  обладают  хорошей  производитель-ностью и функциональностью, но не в  состоянии должным  об-разом масштабироваться в случае очень больших баз данных.
Описание слайда:
1.2 MOLAP Серверная архитектура напрямую поддерживает многомер-ные представления данных с помощью многомерного меха-низма хранения. MOLAP позволяет реализовывать многомер-ные запросы на уровне хранения путем установки прямого со-ответствия. Основное преимущество заключается в превосходных свой-ствах индексации; ее недостаток – низкий коэффициент испо-льзования дискового пространства, особенно в случае разре-женных данных. Многие серверы MOLAP при работе с разреженными множест-вами данных используют двухуровневую организацию памяти и сжатие. При двухуровневой организации пользователь либо непосредственно, либо с помощью специальных инструментов проектирования, идентифицирует набор подмассивов. Индек-сировать эти массивы меньшего размера можно с помощью традиционных индексных структур. Многие из методик, разра-ботанных для статистических баз данных, подходят и для MOLAP. Серверы MOLAP обладают хорошей производитель-ностью и функциональностью, но не в состоянии должным об-разом масштабироваться в случае очень больших баз данных.

Слайд 7





1.3 HOLAP
Гибридная  архитектура,  которая  объединяет  технологии ROLAP и  MOLAP. В  отличие  от  MOLAP,  которая  работает лучше, когда данные  более менее плотные, серверы ROLAP лучше в тех случаях, когда данные довольно разрежены. 
Серверы HOLAP  применяют подход  ROLAP для разрежен-ных областей многомерного пространства и подход MOLAP – для плотных областей. Серверы HOLAP разделяют запрос на  несколько  подзапросов, направляют их к соответствую-щим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю.
Материализация выборочных представлений в HOLAP, вы-борочное построение индексов, а также планирование зап-росов и  ресурсов аналогично тому, как  это реализовано в серверах MOLAP и ROLAP.
Описание слайда:
1.3 HOLAP Гибридная архитектура, которая объединяет технологии ROLAP и MOLAP. В отличие от MOLAP, которая работает лучше, когда данные более менее плотные, серверы ROLAP лучше в тех случаях, когда данные довольно разрежены. Серверы HOLAP применяют подход ROLAP для разрежен-ных областей многомерного пространства и подход MOLAP – для плотных областей. Серверы HOLAP разделяют запрос на несколько подзапросов, направляют их к соответствую-щим фрагментам данных, комбинируют результаты, а затем предоставляют результат пользователю. Материализация выборочных представлений в HOLAP, вы-борочное построение индексов, а также планирование зап-росов и ресурсов аналогично тому, как это реализовано в серверах MOLAP и ROLAP.

Слайд 8





2 Процессы добычи данных
Обнаружение знаний (knowledge discovery) –  процесс определения и достижения  цели  посредством итера-тивной добычи данных.
Описание слайда:
2 Процессы добычи данных Обнаружение знаний (knowledge discovery) – процесс определения и достижения цели посредством итера-тивной добычи данных.

Слайд 9





2.1 Подготовка данных
На этапе  подготовки  данных  аналитик  готовит  набор дан-ных,  содержащий достаточно информации,  для  того чтобы создать точные  модели  на последующих этапах. В случае с FSC, точная модель должна помочь прогнозировать, с какой вероятностью клиент купит продукты, рекламируемые в но-вом каталоге. 
Как  правило,  добыча  данных  включает в  себя  итеративно создаваемые  модели  на  основе  подготовленного  множес-тва данных, а затем  применение одной или  нескольких  мо-делей.  Поскольку  создание  моделей на больших  множест-вах  данных  может  оказаться  весьма  дорогостоящим,  ана-литики  часто  сначала  работают с  несколькими  выборками множества данных. Платформы  добычи  данных,  таким  об-разом, должны поддерживать вычисления на случайно выб-ранных экземплярах данных в сложных запросах.
Описание слайда:
2.1 Подготовка данных На этапе подготовки данных аналитик готовит набор дан-ных, содержащий достаточно информации, для того чтобы создать точные модели на последующих этапах. В случае с FSC, точная модель должна помочь прогнозировать, с какой вероятностью клиент купит продукты, рекламируемые в но-вом каталоге. Как правило, добыча данных включает в себя итеративно создаваемые модели на основе подготовленного множес-тва данных, а затем применение одной или нескольких мо-делей. Поскольку создание моделей на больших множест-вах данных может оказаться весьма дорогостоящим, ана-литики часто сначала работают с несколькими выборками множества данных. Платформы добычи данных, таким об-разом, должны поддерживать вычисления на случайно выб-ранных экземплярах данных в сложных запросах.

Слайд 10





2.2 Построение и оценка моделей
Только после того, как принято решение о том, какую мо-дель применять, аналитик создает модель на всем подго-товленном множестве данных. 
Цель этого этапа создания модели – указать шаблоны, ко-торые определяют целевой атрибут (target attribute). При-мер  целевого  атрибута во множестве  данных FSC: приоб-рел ли клиент хотя бы один продукт из предыдущего ката-лога?. 
Предсказать как точно указанные, так и скрытые атрибуты помогают несколько классов моделей добычи данных.
На выбор модели влияют два важных фактора:
точность модели,
эффективность алгоритма для создания модели на больших множествах данных.
Описание слайда:
2.2 Построение и оценка моделей Только после того, как принято решение о том, какую мо-дель применять, аналитик создает модель на всем подго-товленном множестве данных. Цель этого этапа создания модели – указать шаблоны, ко-торые определяют целевой атрибут (target attribute). При-мер целевого атрибута во множестве данных FSC: приоб-рел ли клиент хотя бы один продукт из предыдущего ката-лога?. Предсказать как точно указанные, так и скрытые атрибуты помогают несколько классов моделей добычи данных. На выбор модели влияют два важных фактора: точность модели, эффективность алгоритма для создания модели на больших множествах данных.

Слайд 11





Многие коммерческие продукты создают модели для конкретных  областей применения, но  реальная  база данных,  на  которой  должна  применяться  такая  мо-дель,  возможно,  будет  работать  с  другим  сервером баз данных. Платформы добычи данных и серверы баз данных,  таким образом,  должны  поддерживать взаи-мозаменяемость моделей. 
Многие коммерческие продукты создают модели для конкретных  областей применения, но  реальная  база данных,  на  которой  должна  применяться  такая  мо-дель,  возможно,  будет  работать  с  другим  сервером баз данных. Платформы добычи данных и серверы баз данных,  таким образом,  должны  поддерживать взаи-мозаменяемость моделей. 
Недавно рабочая группа Data Mining Group предложи-ла воспользоваться Predictive Model Markup Language, стандартом на  базе XML, для обмена  рядом  популяр-ных классов моделей прогнозирования. Идея состоит в  том,  чтобы  любая  база  данных,  поддерживающая этот  язык,  могла  импортировать и  применять любую описанную на нем модель.
Описание слайда:
Многие коммерческие продукты создают модели для конкретных областей применения, но реальная база данных, на которой должна применяться такая мо-дель, возможно, будет работать с другим сервером баз данных. Платформы добычи данных и серверы баз данных, таким образом, должны поддерживать взаи-мозаменяемость моделей. Многие коммерческие продукты создают модели для конкретных областей применения, но реальная база данных, на которой должна применяться такая мо-дель, возможно, будет работать с другим сервером баз данных. Платформы добычи данных и серверы баз данных, таким образом, должны поддерживать взаи-мозаменяемость моделей. Недавно рабочая группа Data Mining Group предложи-ла воспользоваться Predictive Model Markup Language, стандартом на базе XML, для обмена рядом популяр-ных классов моделей прогнозирования. Идея состоит в том, чтобы любая база данных, поддерживающая этот язык, могла импортировать и применять любую описанную на нем модель.

Слайд 12





2.3 Применение модели
На  этом этапе аналитики  применяют выбранную модель к наборам данных, чтобы прогнозировать целевой атрибут с неизвестным значением.
Для  каждого  текущего  набора  клиентов  в  примере  FSC, прогноз  касается того, будут  ли  они приобретать продукты из нового каталога. Применение модели на входном наборе данных  может  породить  другой  набор  данных.  В примере FSC этап применения  модели указывает подмножество кли-ентов, которым будет разослан каталог. 
Когда входной набор данных очень большой, стратегия при-менения  модели  должна  б ыть достаточно эффективной. В этом  случае может  потребоваться использование индексов на входной  таблице для  фильтрации  кортежей, которые не будут  входить в  развертываемый  результат, но  это требует более  тесной интеграции  между системами управления ба-зами данных и применением модели.
Описание слайда:
2.3 Применение модели На этом этапе аналитики применяют выбранную модель к наборам данных, чтобы прогнозировать целевой атрибут с неизвестным значением. Для каждого текущего набора клиентов в примере FSC, прогноз касается того, будут ли они приобретать продукты из нового каталога. Применение модели на входном наборе данных может породить другой набор данных. В примере FSC этап применения модели указывает подмножество кли-ентов, которым будет разослан каталог. Когда входной набор данных очень большой, стратегия при-менения модели должна б ыть достаточно эффективной. В этом случае может потребоваться использование индексов на входной таблице для фильтрации кортежей, которые не будут входить в развертываемый результат, но это требует более тесной интеграции между системами управления ба-зами данных и применением модели.

Слайд 13





3 Дополнительные вопросы OLAP и добычи данных
Описание слайда:
3 Дополнительные вопросы OLAP и добычи данных

Слайд 14





3.1 Пакетные приложения
Пакетные приложения и средства формирования отче-тов могут  использовать  знания о конкретной вертика-льной  отрасли для упрощения  задачи  анализа  путем учета  специфических  для  отрасли  абстракций  более высокого  уровня. Data Warehousing Information Center и KDnuggets  предлагают  обширный  список  решений, ориентированных на конкретные отрасли. 
Компании  могут приобрести  такие пакеты, а не разра-батывать свое собственное аналитическое решение, но пакеты,  ориентированные на конкретную область при-менения, меняющиеся по мере развития бизнеса, огра-ничены  по  набору  своих  функций  и  потому  не  могут удовлетворить  все  потенциальные  требования  к ана-лизу.
Описание слайда:
3.1 Пакетные приложения Пакетные приложения и средства формирования отче-тов могут использовать знания о конкретной вертика-льной отрасли для упрощения задачи анализа путем учета специфических для отрасли абстракций более высокого уровня. Data Warehousing Information Center и KDnuggets предлагают обширный список решений, ориентированных на конкретные отрасли. Компании могут приобрести такие пакеты, а не разра-батывать свое собственное аналитическое решение, но пакеты, ориентированные на конкретную область при-менения, меняющиеся по мере развития бизнеса, огра-ничены по набору своих функций и потому не могут удовлетворить все потенциальные требования к ана-лизу.

Слайд 15





3.2 API-интерфейсы и влияние XML
Некоторые платформы OLAP и добычи данных предлагают  API - интерфейсы,  которые  позволяют  аналитикам  созда-вать  собственные решения. Однако поставщики  решений, как  правило,  вынуждены писать специальные  программы для  различных  платформ, чтобы  предоставить не  завися-щее от платформ решение.
Новые ориентированные на XML службы на базе Web обес-печивают общий интерфейс для механизмов OLAP. Компа-нии  Microsoft  и  Hyperion  опубликовали  XML  for  Analysis, API-интерфейс, основанный  на  протоколе  SOAP, предназ-наченный  специально  для  стандартизации  взаимодейст-вий  при  доступе к данным между  клиентским приложени-ем и источником  данных,  работающими  через Web. На ос-нове этой XML-спецификации поставщики решений смогут писать программы с помощью одного API-интерфейса, а не использовать  множество  интерфейсов,  ориентированных на решения разных производителей.
Описание слайда:
3.2 API-интерфейсы и влияние XML Некоторые платформы OLAP и добычи данных предлагают API - интерфейсы, которые позволяют аналитикам созда-вать собственные решения. Однако поставщики решений, как правило, вынуждены писать специальные программы для различных платформ, чтобы предоставить не завися-щее от платформ решение. Новые ориентированные на XML службы на базе Web обес-печивают общий интерфейс для механизмов OLAP. Компа-нии Microsoft и Hyperion опубликовали XML for Analysis, API-интерфейс, основанный на протоколе SOAP, предназ-наченный специально для стандартизации взаимодейст-вий при доступе к данным между клиентским приложени-ем и источником данных, работающими через Web. На ос-нове этой XML-спецификации поставщики решений смогут писать программы с помощью одного API-интерфейса, а не использовать множество интерфейсов, ориентированных на решения разных производителей.

Слайд 16





3.3 Приближенная обработка запросов
Обработка сложных агрегатных запросов, как правило, тре-бует  обращения  к  огромным  объемам  данных.  Например, вычисление среднего объема продаж FSC в различных горо-дах требует сканирования всех данных в хранилище. Во мно-гих случаях  достаточно  точную  оценку позволяет  получить приближенная обработка запросов. 
Идея состоит в том, чтобы на основе базовых данных макси-мально точно сформировать  сводные данные, а затем полу-чать ответы на агрегатные запросы с помощью этих сводных, а не полных  данных. Дополнительную  информацию  по это-му  вопросу  можно  найти  в описании  проектов Approximate Query Processing и AQUA Project.
Описание слайда:
3.3 Приближенная обработка запросов Обработка сложных агрегатных запросов, как правило, тре-бует обращения к огромным объемам данных. Например, вычисление среднего объема продаж FSC в различных горо-дах требует сканирования всех данных в хранилище. Во мно-гих случаях достаточно точную оценку позволяет получить приближенная обработка запросов. Идея состоит в том, чтобы на основе базовых данных макси-мально точно сформировать сводные данные, а затем полу-чать ответы на агрегатные запросы с помощью этих сводных, а не полных данных. Дополнительную информацию по это-му вопросу можно найти в описании проектов Approximate Query Processing и AQUA Project.

Слайд 17





3.4 Интеграция OLAP и добычи данных 
OLAP-инструментарий помогает аналитикам выявить акту-альные порции данных, а модели добычи данных  обогаща-ют  эту  функциональность. Например,  если  темпы  роста объема  продаж  FSC  не  соответствуют  прогнозируемым, специалисты  по  маркетингу хотели бы  знать  аномальные регионы и  категории  продуктов,  для которых не выполня-ются заданные показатели.
Пробный  анализ, который  выявляет аномалии, использует методику,  позволяющую отметить агрегатный параметр на более  высоком  уровне  в  иерархии  измерений  с аномаль-ным  результатом.  Аномальный  результат  определяет  об-щее отклонение реальных агрегатных величин от соответс-твующих  прогнозируемых  значений над всеми своими по-томками.  Для  вычисления прогнозируемых  значений ана-литики могут использовать такие средства добычи данных, как регрессионные модели.
Описание слайда:
3.4 Интеграция OLAP и добычи данных OLAP-инструментарий помогает аналитикам выявить акту-альные порции данных, а модели добычи данных обогаща-ют эту функциональность. Например, если темпы роста объема продаж FSC не соответствуют прогнозируемым, специалисты по маркетингу хотели бы знать аномальные регионы и категории продуктов, для которых не выполня-ются заданные показатели. Пробный анализ, который выявляет аномалии, использует методику, позволяющую отметить агрегатный параметр на более высоком уровне в иерархии измерений с аномаль-ным результатом. Аномальный результат определяет об-щее отклонение реальных агрегатных величин от соответс-твующих прогнозируемых значений над всеми своими по-томками. Для вычисления прогнозируемых значений ана-литики могут использовать такие средства добычи данных, как регрессионные модели.

Слайд 18





3.5 Добыча данных в Web
Большинство крупных компаний поддерживают Web-сайты,  где клиенты могут просмотреть  информацию, запросить данные о товарах и приобрести их. 
Поскольку  каждый  клиент  имеет  личный  контакт с компанией через Web-сайт, компании могут персони-фицировать  работу с ним. Например,  сайт может ре-комендовать  клиенту  продукты,  услуги  или  статьи, относящиеся к области его интересов.
При  создании  таких Web-систем возникают два важ-ных вопроса: 
сбор данных,
 методы персонификации.
Описание слайда:
3.5 Добыча данных в Web Большинство крупных компаний поддерживают Web-сайты, где клиенты могут просмотреть информацию, запросить данные о товарах и приобрести их. Поскольку каждый клиент имеет личный контакт с компанией через Web-сайт, компании могут персони-фицировать работу с ним. Например, сайт может ре-комендовать клиенту продукты, услуги или статьи, относящиеся к области его интересов. При создании таких Web-систем возникают два важ-ных вопроса: сбор данных, методы персонификации.



Похожие презентации
Mypresentation.ru
Загрузить презентацию