🗊Презентация Технологии интеграции данных в распределенных системах

Категория: Информатика
Нажмите для полного просмотра!
Технологии интеграции данных в распределенных системах, слайд №1Технологии интеграции данных в распределенных системах, слайд №2Технологии интеграции данных в распределенных системах, слайд №3Технологии интеграции данных в распределенных системах, слайд №4Технологии интеграции данных в распределенных системах, слайд №5Технологии интеграции данных в распределенных системах, слайд №6Технологии интеграции данных в распределенных системах, слайд №7Технологии интеграции данных в распределенных системах, слайд №8Технологии интеграции данных в распределенных системах, слайд №9Технологии интеграции данных в распределенных системах, слайд №10Технологии интеграции данных в распределенных системах, слайд №11Технологии интеграции данных в распределенных системах, слайд №12Технологии интеграции данных в распределенных системах, слайд №13Технологии интеграции данных в распределенных системах, слайд №14Технологии интеграции данных в распределенных системах, слайд №15Технологии интеграции данных в распределенных системах, слайд №16Технологии интеграции данных в распределенных системах, слайд №17Технологии интеграции данных в распределенных системах, слайд №18Технологии интеграции данных в распределенных системах, слайд №19Технологии интеграции данных в распределенных системах, слайд №20Технологии интеграции данных в распределенных системах, слайд №21Технологии интеграции данных в распределенных системах, слайд №22Технологии интеграции данных в распределенных системах, слайд №23Технологии интеграции данных в распределенных системах, слайд №24Технологии интеграции данных в распределенных системах, слайд №25Технологии интеграции данных в распределенных системах, слайд №26Технологии интеграции данных в распределенных системах, слайд №27Технологии интеграции данных в распределенных системах, слайд №28Технологии интеграции данных в распределенных системах, слайд №29Технологии интеграции данных в распределенных системах, слайд №30Технологии интеграции данных в распределенных системах, слайд №31Технологии интеграции данных в распределенных системах, слайд №32Технологии интеграции данных в распределенных системах, слайд №33Технологии интеграции данных в распределенных системах, слайд №34Технологии интеграции данных в распределенных системах, слайд №35Технологии интеграции данных в распределенных системах, слайд №36Технологии интеграции данных в распределенных системах, слайд №37Технологии интеграции данных в распределенных системах, слайд №38Технологии интеграции данных в распределенных системах, слайд №39Технологии интеграции данных в распределенных системах, слайд №40Технологии интеграции данных в распределенных системах, слайд №41Технологии интеграции данных в распределенных системах, слайд №42Технологии интеграции данных в распределенных системах, слайд №43Технологии интеграции данных в распределенных системах, слайд №44Технологии интеграции данных в распределенных системах, слайд №45Технологии интеграции данных в распределенных системах, слайд №46Технологии интеграции данных в распределенных системах, слайд №47Технологии интеграции данных в распределенных системах, слайд №48Технологии интеграции данных в распределенных системах, слайд №49Технологии интеграции данных в распределенных системах, слайд №50Технологии интеграции данных в распределенных системах, слайд №51

Содержание

Вы можете ознакомиться и скачать презентацию на тему Технологии интеграции данных в распределенных системах. Доклад-сообщение содержит 51 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Введение в распределенные методы обработки информации
Лекция_№ 4
Технологии интеграции данных
В распределенных системах
Описание слайда:
Введение в распределенные методы обработки информации Лекция_№ 4 Технологии интеграции данных В распределенных системах

Слайд 2





Гомогенные и гетерогенные распределенные БД 
РБД можно классифицировать на гомогенные и гетерогенные. 
Гомогенной РБД управляет один и тот же тип СУБД. 
Гетерогенной РБД управляют различные типы СУБД, использующие разные модели данных – реляционные, сетевые, иерархические или объектно-ориентированные СУБД.
Описание слайда:
Гомогенные и гетерогенные распределенные БД РБД можно классифицировать на гомогенные и гетерогенные. Гомогенной РБД управляет один и тот же тип СУБД. Гетерогенной РБД управляют различные типы СУБД, использующие разные модели данных – реляционные, сетевые, иерархические или объектно-ориентированные СУБД.

Слайд 3





Гомогенные и гетерогенные распределенные БД
Гомогенные РБД значительно проще проектировать и сопровождать. 
Кроме того, подобный подход позволяет поэтапно наращивать размеры РБД, последовательно добавляя новые узлы к уже существующей РБД (хорошая масштабируемость). 
Гетерогенные РБД обычно возникают в тех случаях, когда независимые узлы, управляемые своей собственной СУБД, интегрируются во вновь создаваемую РБД
Описание слайда:
Гомогенные и гетерогенные распределенные БД Гомогенные РБД значительно проще проектировать и сопровождать. Кроме того, подобный подход позволяет поэтапно наращивать размеры РБД, последовательно добавляя новые узлы к уже существующей РБД (хорошая масштабируемость). Гетерогенные РБД обычно возникают в тех случаях, когда независимые узлы, управляемые своей собственной СУБД, интегрируются во вновь создаваемую РБД

Слайд 4





Интеграция данных
главной проблемой подхода к хранению информации в РБД является разнородность и удаленность источников данных
целью интеграции является получение единой и цельной картины данных. 
интеграция данных может быть описана с помощью модели, которая включает приложения, продукты, технологии и методы
Описание слайда:
Интеграция данных главной проблемой подхода к хранению информации в РБД является разнородность и удаленность источников данных целью интеграции является получение единой и цельной картины данных. интеграция данных может быть описана с помощью модели, которая включает приложения, продукты, технологии и методы

Слайд 5





Модель интеграции данных включает:
приложения - это решения, созданные поставщиками в соответствии с требованиями клиентов, которые используют один или несколько продуктов интеграции данных
продукты - это готовые коммерческие решения, поддерживающие одну или несколько технологий интеграции данных
технологии реализуют один или несколько методов интеграции данных 
методы - это подходы к интеграции данных, независимые от технологий 
Существует три основных метода интеграции данных: консолидация, федерализация и распространение
Описание слайда:
Модель интеграции данных включает: приложения - это решения, созданные поставщиками в соответствии с требованиями клиентов, которые используют один или несколько продуктов интеграции данных продукты - это готовые коммерческие решения, поддерживающие одну или несколько технологий интеграции данных технологии реализуют один или несколько методов интеграции данных методы - это подходы к интеграции данных, независимые от технологий Существует три основных метода интеграции данных: консолидация, федерализация и распространение

Слайд 6





Методы интеграции
Описание слайда:
Методы интеграции

Слайд 7





Консолидация данных
Консолидация — комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему.
Описание слайда:
Консолидация данных Консолидация — комплекс методов и процедур, направленных на извлечение данных из различных источников, обеспечение необходимого уровня их информативности и качества, преобразование в единый формат, в котором они могут быть загружены в хранилище данных или аналитическую систему.

Слайд 8





Необходимость консолидации данных
Задачи бизнес-аналитики:
Данные на предприятии расположены в различных источниках самых разнообразных форматов и типов:
в отдельных файлах офисных документов (Excel, Word, обычных текстовых файлах), 
в учетных системах («1С:Предприятие», «Парус» и др.), 
в базах данных (Oracle, Access, dBase и др.). 
Данные могут быть избыточными или, наоборот, недостаточными. 
Данные являются «грязными», то есть содержат факторы, мешающие их правильной обработке и анализу (пропуски, аномальные значения, дубликаты и противоречия).
Описание слайда:
Необходимость консолидации данных Задачи бизнес-аналитики: Данные на предприятии расположены в различных источниках самых разнообразных форматов и типов: в отдельных файлах офисных документов (Excel, Word, обычных текстовых файлах), в учетных системах («1С:Предприятие», «Парус» и др.), в базах данных (Oracle, Access, dBase и др.). Данные могут быть избыточными или, наоборот, недостаточными. Данные являются «грязными», то есть содержат факторы, мешающие их правильной обработке и анализу (пропуски, аномальные значения, дубликаты и противоречия).

Слайд 9





Цели консолидации
доведение данных до приемлемого уровня качества и информативности
организация интегрированного хранения данных в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполнения аналитических запросов
Описание слайда:
Цели консолидации доведение данных до приемлемого уровня качества и информативности организация интегрированного хранения данных в структурах, обеспечивающих их целостность, непротиворечивость, высокую скорость и гибкость выполнения аналитических запросов

Слайд 10





Основа консолидации
Консолидация данных является начальным этапом реализации любой аналитической задачи или проекта. 
В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. 
Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.
Описание слайда:
Основа консолидации Консолидация данных является начальным этапом реализации любой аналитической задачи или проекта. В основе консолидации лежит процесс сбора и организации хранения данных в виде, оптимальном с точки зрения их обработки на конкретной аналитической платформе или решения конкретной аналитической задачи. Сопутствующими задачами консолидации являются оценка качества данных и их обогащение.

Слайд 11





Основные критерии оптимальности с точки зрения консолидации данных:
обеспечение высокой скорости доступа к данным; 
 компактность хранения; 
 автоматическая поддержка целостности структуры данных; 
 контроль непротиворечивости данных.
Описание слайда:
Основные критерии оптимальности с точки зрения консолидации данных: обеспечение высокой скорости доступа к данным; компактность хранения; автоматическая поддержка целостности структуры данных; контроль непротиворечивости данных.

Слайд 12





Источники данных
Источник данных — объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. 
Объект может считаться источником данных если:
используемая аналитическая платформа может осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат
в противном случае объект не может считаться источником данных.
Описание слайда:
Источники данных Источник данных — объект, содержащий структурированные данные, которые могут оказаться полезными для решения аналитической задачи. Объект может считаться источником данных если: используемая аналитическая платформа может осуществлять доступ к данным из этого объекта непосредственно либо после их преобразования в другой формат в противном случае объект не может считаться источником данных.

Слайд 13





Основные задачи консолидации данных
выбор источников данных, определение типа источников, определение методики организации доступа к источникам
 разработка стратегии консолидации; 
 оценка качества данных; 
 обогащение; 
 очистка; 
 перенос в хранилище данных
Описание слайда:
Основные задачи консолидации данных выбор источников данных, определение типа источников, определение методики организации доступа к источникам разработка стратегии консолидации; оценка качества данных; обогащение; очистка; перенос в хранилище данных

Слайд 14





Выбор источников данных
данные, хранящиеся в отдельных (локальных) файлах
преимущества: могут легко создаваться и редактироваться, не требует от персонала специальной подготовки
недостатки: не всегда оптимальны с точки зрения скорости доступа к ним, компактности представления данных и поддержки их структурной целостности
базы данных
преимущества: поддерживают целостность данных
недостатки: для работы требуют специальной подготовки
специализированные хранилища данных
наиболее предпочтительны для работы с аналитической платформой, поскольку:
обеспечивают высокую скорость обмена данными с аналитическими приложениями
 автоматически поддерживают целостность и непротиворечивость данных
главное преимущество ХД —  наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу
Описание слайда:
Выбор источников данных данные, хранящиеся в отдельных (локальных) файлах преимущества: могут легко создаваться и редактироваться, не требует от персонала специальной подготовки недостатки: не всегда оптимальны с точки зрения скорости доступа к ним, компактности представления данных и поддержки их структурной целостности базы данных преимущества: поддерживают целостность данных недостатки: для работы требуют специальной подготовки специализированные хранилища данных наиболее предпочтительны для работы с аналитической платформой, поскольку: обеспечивают высокую скорость обмена данными с аналитическими приложениями автоматически поддерживают целостность и непротиворечивость данных главное преимущество ХД — наличие семантического слоя, который дает пользователю возможность оперировать терминами предметной области для формирования аналитических запросов к хранилищу

Слайд 15





Разработка стратегии консолидации
При разработке стратегии консолидации данных необходимо учитывать характер расположения источников данных — локальный, когда они размещены на том же ПК, что и аналитическое приложение, либо удаленный, если источники доступны только через локальную или Глобальную компьютерные сети. 
Характер расположения источников данных может существенно повлиять на качество собранных данных (потеря фрагментов, несогласованность во времени их обновления, противоречивость и т.д.).
Описание слайда:
Разработка стратегии консолидации При разработке стратегии консолидации данных необходимо учитывать характер расположения источников данных — локальный, когда они размещены на том же ПК, что и аналитическое приложение, либо удаленный, если источники доступны только через локальную или Глобальную компьютерные сети. Характер расположения источников данных может существенно повлиять на качество собранных данных (потеря фрагментов, несогласованность во времени их обновления, противоречивость и т.д.).

Слайд 16





Обогащение данных
Обогащение данных— процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач. 
Обогащение позволяет более эффективно использовать консолидированные данные. 
Обогащение необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа. 
Обогащение данных позволяет повысить их информационную насыщенность и, как следствие, значимость для решения аналитической задачи.
Описание слайда:
Обогащение данных Обогащение данных— процесс дополнения данных некоторой информацией, позволяющей повысить эффективность решения аналитических задач. Обогащение позволяет более эффективно использовать консолидированные данные. Обогащение необходимо применять в тех случаях, когда данные содержат недостаточно информации для удовлетворительного решения определенной задачи анализа. Обогащение данных позволяет повысить их информационную насыщенность и, как следствие, значимость для решения аналитической задачи.

Слайд 17





Очистка данных
Очистка данных — комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д.
В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. 
Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. 
Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных.
Описание слайда:
Очистка данных Очистка данных — комплекс методов и процедур, направленных на устранение причин, мешающих корректной обработке: аномалий, пропусков, дубликатов, противоречий, шумов и т.д. В большинстве случаев исходные данные являются «грязными», то есть содержат факторы, не позволяющие их корректно анализировать, обнаруживать скрытые структуры и закономерности, устанавливать связи между элементами данных и выполнять другие действия, которые могут потребоваться для получения аналитического решения. Поэтому перед тем, как приступить к анализу данных, необходимо оценить их качество и соответствие требованиям, предъявляемым аналитической платформой. Если в процессе оценки качества будут выявлены факторы, которые не позволяют корректно применить к данным те или иные аналитические методы, необходимо выполнить соответствующую очистку данных.

Слайд 18





Обобщенная схема процесса консолидации
Описание слайда:
Обобщенная схема процесса консолидации

Слайд 19





Процесс ETL
В основе процедуры консолидации лежит процесс ETL (extraction, transformation, loading). 
Процесс ETL решает задачи: 
извлечения данных из разнотипных источников, 
их преобразования к виду, пригодному для хранения в определенной структуре, 
загрузки данных в соответствующую базу или хранилище 
Если у аналитика возникают сомнения в качестве и информативности исходных данных, то при необходимости он может задействовать процедуры: 
оценки  качества данных, 
очистки или обогащения данных
которые также являются составными частями процесса консолидации данных.
Описание слайда:
Процесс ETL В основе процедуры консолидации лежит процесс ETL (extraction, transformation, loading). Процесс ETL решает задачи: извлечения данных из разнотипных источников, их преобразования к виду, пригодному для хранения в определенной структуре, загрузки данных в соответствующую базу или хранилище Если у аналитика возникают сомнения в качестве и информативности исходных данных, то при необходимости он может задействовать процедуры: оценки качества данных, очистки или обогащения данных которые также являются составными частями процесса консолидации данных.

Слайд 20





Обобщенная структура процесса ETL
Описание слайда:
Обобщенная структура процесса ETL

Слайд 21





Извлечение данных в ETL

Начальным этапом процесса ETL является процедура извлечения записей из источника данных и подготовка содержащейся в них информации к процессу преобразования 
Процедуру извлечения можно реализовать двумя основными способами:
Описание слайда:
Извлечение данных в ETL Начальным этапом процесса ETL является процедура извлечения записей из источника данных и подготовка содержащейся в них информации к процессу преобразования Процедуру извлечения можно реализовать двумя основными способами:

Слайд 22





1. Извлечение данных с помощью специализированных программных средств 
Преимущества: 
позволяет, избежать необходимости оснащать разрабатываемые системы средствами выгрузки, 
позволяет учитывать особенности всего ETL-процесса уже в процессе выгрузки. 
В случае, когда данные извлекаются из локальных источников (отдельных документов, таблиц и т.д.), альтернативы использованию специальных средств нет, поскольку такие виды источников данных не содержат средств выгрузки данных.
Описание слайда:
1. Извлечение данных с помощью специализированных программных средств Преимущества: позволяет, избежать необходимости оснащать разрабатываемые системы средствами выгрузки, позволяет учитывать особенности всего ETL-процесса уже в процессе выгрузки. В случае, когда данные извлекаются из локальных источников (отдельных документов, таблиц и т.д.), альтернативы использованию специальных средств нет, поскольку такие виды источников данных не содержат средств выгрузки данных.

Слайд 23





2. Извлечение данных средствами той системы, в которой они хранятся 
Поскольку средства «самовыгрузки» разрабатываются с учетом особенностей структуры данных системы, это позволяет адаптировать процедуру извлечения к структуре извлекаемых данных, что в ряде случаев делает процесс более эффективным
Описание слайда:
2. Извлечение данных средствами той системы, в которой они хранятся Поскольку средства «самовыгрузки» разрабатываются с учетом особенностей структуры данных системы, это позволяет адаптировать процедуру извлечения к структуре извлекаемых данных, что в ряде случаев делает процесс более эффективным

Слайд 24





Схема организации ETL 
После извлечения данные помещаются в так называемую промежуточную область, где для каждого источника данных создается своя таблица или отдельный файл (или и то и другое). 
В некоторых случаях, когда требуется выгрузить данные из нескольких источников одного типа, для них создается общая таблица; одно из ее полей указывает на источник, из которого были взяты данные
Описание слайда:
Схема организации ETL После извлечения данные помещаются в так называемую промежуточную область, где для каждого источника данных создается своя таблица или отдельный файл (или и то и другое). В некоторых случаях, когда требуется выгрузить данные из нескольких источников одного типа, для них создается общая таблица; одно из ее полей указывает на источник, из которого были взяты данные

Слайд 25





Процесс преобразования данных в ETL 
В процессе преобразования данных в рамках ETL чаще всего выполняются следующие операции:
Описание слайда:
Процесс преобразования данных в ETL В процессе преобразования данных в рамках ETL чаще всего выполняются следующие операции:

Слайд 26





Преобразование структуры данных 
Во многих случаях данные поступают в хранилище, интегрируясь из множества источников, которые создавались с помощью различных программных средств, методологий, соглашений, стандартов и т.д. 
Данные из таких источников могут отличаться своей структурной организацией: соглашениями о назначении имен полей и таблиц, порядком их описания, форматами, типами и кодировкой данных, например точностью представления числовых данных, используемыми разделителями целой и дробной частей, разделителями групп разрядов и т.д. 
Следовательно, во многих случаях извлеченные данные непригодны для непосредственной загрузки в ХД из-за отличия их структуры от структуры соответствующих целевых таблиц ХД
Описание слайда:
Преобразование структуры данных Во многих случаях данные поступают в хранилище, интегрируясь из множества источников, которые создавались с помощью различных программных средств, методологий, соглашений, стандартов и т.д. Данные из таких источников могут отличаться своей структурной организацией: соглашениями о назначении имен полей и таблиц, порядком их описания, форматами, типами и кодировкой данных, например точностью представления числовых данных, используемыми разделителями целой и дробной частей, разделителями групп разрядов и т.д. Следовательно, во многих случаях извлеченные данные непригодны для непосредственной загрузки в ХД из-за отличия их структуры от структуры соответствующих целевых таблиц ХД

Слайд 27





Агрегирование данных 
Как правило, в качестве источников данных для хранилищ выступают системы оперативной обработки данных (OLTP-системы), учетные системы, файлы различных СУБД, локальные файлы отдельных пользователей и т.д. Общим свойством всех этих источников является то, что они содержат данные с максимальной степенью детализации.
Для достоверного описания предметной области использование данных с максимальным уровнем детализации не всегда целесообразно, поэтому наибольший интерес для анализа представляют данные, обобщенные по некоторому интервалу времени, по группе клиентов, товаров и т.д. Такие обобщенные данные называются агрегированными (иногда агрегатами), а сам процесс их вычисления – агрегированием. 
В результате агрегирования большое количество записей о каждом событии в бизнес-процессе заменяется относительно небольшим количеством записей, содержащих агрегированные значения.
Описание слайда:
Агрегирование данных Как правило, в качестве источников данных для хранилищ выступают системы оперативной обработки данных (OLTP-системы), учетные системы, файлы различных СУБД, локальные файлы отдельных пользователей и т.д. Общим свойством всех этих источников является то, что они содержат данные с максимальной степенью детализации. Для достоверного описания предметной области использование данных с максимальным уровнем детализации не всегда целесообразно, поэтому наибольший интерес для анализа представляют данные, обобщенные по некоторому интервалу времени, по группе клиентов, товаров и т.д. Такие обобщенные данные называются агрегированными (иногда агрегатами), а сам процесс их вычисления – агрегированием. В результате агрегирования большое количество записей о каждом событии в бизнес-процессе заменяется относительно небольшим количеством записей, содержащих агрегированные значения.

Слайд 28





Агрегирование данных
Фактически при агрегировании производится объединение нескольких записей в одну с вычислением агрегированного значения на основе значений каждой записи. 
При вычислении агрегатов может быть использовано несколько способов. 
Среднее – для данных, расположенных в пределах интервала, в котором они обобщаются, вычисляется среднее значение. 
Затем все записи из данного интервала заменяются одной, содержащей их среднее значение
Описание слайда:
Агрегирование данных Фактически при агрегировании производится объединение нескольких записей в одну с вычислением агрегированного значения на основе значений каждой записи. При вычислении агрегатов может быть использовано несколько способов. Среднее – для данных, расположенных в пределах интервала, в котором они обобщаются, вычисляется среднее значение. Затем все записи из данного интервала заменяются одной, содержащей их среднее значение

Слайд 29





Пример агрегирования
Описание слайда:
Пример агрегирования

Слайд 30





Агрегирование данных
Из всех возможных вариантов агрегирования следует выбрать наиболее значимые с точки зрения планируемых направлений анализа, а от остальных отказаться. 
Очевидно, можно отказаться от агрегатов, которые имеют малое число подчиненных агрегированных значений (например, агрегирование ежемесячных продаж за квартал), поскольку их легко вычислить в процессе анализа. 
Или, наоборот, можно отказаться от агрегатов с максимальной степенью детализации (например, агрегирование ежедневных продаж).
Выбор нужных агрегатов всегда определяется особенностями конкретной задачи. При этом следует помнить, что агрегаты, требуемые для анализа, могут быть вычислены и непосредственно при выполнении аналитического запроса к ХД.
Описание слайда:
Агрегирование данных Из всех возможных вариантов агрегирования следует выбрать наиболее значимые с точки зрения планируемых направлений анализа, а от остальных отказаться. Очевидно, можно отказаться от агрегатов, которые имеют малое число подчиненных агрегированных значений (например, агрегирование ежемесячных продаж за квартал), поскольку их легко вычислить в процессе анализа. Или, наоборот, можно отказаться от агрегатов с максимальной степенью детализации (например, агрегирование ежедневных продаж). Выбор нужных агрегатов всегда определяется особенностями конкретной задачи. При этом следует помнить, что агрегаты, требуемые для анализа, могут быть вычислены и непосредственно при выполнении аналитического запроса к ХД.

Слайд 31





Перевод значений 
Часто данные в источниках хранятся с использованием специальных кодировок, которые позволяют сократить избыточность данных и тем самым уменьшить объем памяти, требуемой для их хранения. 
Так, наименования объектов, их свойств и признаков могут храниться в сокращенном виде. В этом случае перед загрузкой данных в хранилище требуется выполнить перевод таких сокращенных значений в более полные и, соответственно, понятные
Описание слайда:
Перевод значений Часто данные в источниках хранятся с использованием специальных кодировок, которые позволяют сократить избыточность данных и тем самым уменьшить объем памяти, требуемой для их хранения. Так, наименования объектов, их свойств и признаков могут храниться в сокращенном виде. В этом случае перед загрузкой данных в хранилище требуется выполнить перевод таких сокращенных значений в более полные и, соответственно, понятные

Слайд 32





Создание новых данных 
В процессе загрузки в ХД может понадобиться вычисление некоторых новых данных на основе существующих, что обычно сопровождается созданием новых полей. 
Создание новой информации на основе имеющихся данных тесно связано с таким важным процессом, как обогащение данных, которое может производиться (частично или полностью) на этапе преобразования данных в ETL. Агрегирование также может рассматриваться как создание новых данных.
Описание слайда:
Создание новых данных В процессе загрузки в ХД может понадобиться вычисление некоторых новых данных на основе существующих, что обычно сопровождается созданием новых полей. Создание новой информации на основе имеющихся данных тесно связано с таким важным процессом, как обогащение данных, которое может производиться (частично или полностью) на этапе преобразования данных в ETL. Агрегирование также может рассматриваться как создание новых данных.

Слайд 33





Очистка данных 
Сбор данных в процессе ETL производится из большого числа источников, многие из которых не содержат автоматических средств поддержки целостности, непротиворечивости и корректного представления данных. 
В связи с этим при переносе информации в ХД приходится сталкиваться с потоками «грязных» данных, которые могут стать причиной неправильных результатов анализа и даже сделать невозможным применение некоторых аналитических алгоритмов и методов. 
По этой причине в процессе ETL применяется очистка – процедура корректировки данных, которые в каком-либо смысле не удовлетворяют определенным критериям качества, то есть содержат нарушения структуры данных, противоречия, пропуски, дубликаты, неправильные форматы и т.д. 
Очистка данных – одна из наиболее важных и в то же время наиболее сложных и трудно поддающихся формализации задач ETL-процесса, поскольку набор факторов, снижающих качество данных, весьма разнообразен и может постоянно меняться. Поэтому очистке данных при разработке ETL-процессов уделяют большое внимание.
Описание слайда:
Очистка данных Сбор данных в процессе ETL производится из большого числа источников, многие из которых не содержат автоматических средств поддержки целостности, непротиворечивости и корректного представления данных. В связи с этим при переносе информации в ХД приходится сталкиваться с потоками «грязных» данных, которые могут стать причиной неправильных результатов анализа и даже сделать невозможным применение некоторых аналитических алгоритмов и методов. По этой причине в процессе ETL применяется очистка – процедура корректировки данных, которые в каком-либо смысле не удовлетворяют определенным критериям качества, то есть содержат нарушения структуры данных, противоречия, пропуски, дубликаты, неправильные форматы и т.д. Очистка данных – одна из наиболее важных и в то же время наиболее сложных и трудно поддающихся формализации задач ETL-процесса, поскольку набор факторов, снижающих качество данных, весьма разнообразен и может постоянно меняться. Поэтому очистке данных при разработке ETL-процессов уделяют большое внимание.

Слайд 34





Загрузка данных в хранилище
Описание слайда:
Загрузка данных в хранилище

Слайд 35





Постзагрузочные операции 
После завершения загрузки выполняются дополнительные операции над данными, только что загруженными в ХД, перед тем как сделать их доступными для пользователя. 
Такие операции называются постзагрузочными.
К ним относятся переиндексация, верификация данных и т.д. 
Прежде чем использовать новые данные для анализа, полезно убедиться в их надежности и достоверности. 
Для этих целей можно предусмотреть комплекс верификационных тестов.
Описание слайда:
Постзагрузочные операции После завершения загрузки выполняются дополнительные операции над данными, только что загруженными в ХД, перед тем как сделать их доступными для пользователя. Такие операции называются постзагрузочными. К ним относятся переиндексация, верификация данных и т.д. Прежде чем использовать новые данные для анализа, полезно убедиться в их надежности и достоверности. Для этих целей можно предусмотреть комплекс верификационных тестов.

Слайд 36





Пример верификационных тестов
при суммировании продаж по одному измерению результат должен совпадать с соответствующей суммой, полученной по-другому, связанному с ним измерению, то есть сумма продаж по всем товарам за месяц должна соответствовать сумме сделок, заключенных со всеми клиентами за тот же период; 
итоговый показатель за месяц должен соответствовать сумме ежедневных или еженедельных показателей в этом месяце; 
суммарная выручка по всем регионам за текущий месяц должна соответствовать сумме продаж по всем региональным дилерским центрам. 
Если тестирование показало, что несоответствия, позволяющие заподозрить потерю или недостоверность данных, отсутствуют, то можно считать загрузку данных в ХД успешной и приступать к анализу новой информации
Описание слайда:
Пример верификационных тестов при суммировании продаж по одному измерению результат должен совпадать с соответствующей суммой, полученной по-другому, связанному с ним измерению, то есть сумма продаж по всем товарам за месяц должна соответствовать сумме сделок, заключенных со всеми клиентами за тот же период; итоговый показатель за месяц должен соответствовать сумме ежедневных или еженедельных показателей в этом месяце; суммарная выручка по всем регионам за текущий месяц должна соответствовать сумме продаж по всем региональным дилерским центрам. Если тестирование показало, что несоответствия, позволяющие заподозрить потерю или недостоверность данных, отсутствуют, то можно считать загрузку данных в ХД успешной и приступать к анализу новой информации

Слайд 37





Пример консолидации данных предприятия
Процесс сбора, хранения и оперативной обработки данных на типичном предприятии обычно содержит несколько уровней:
На верхнем уровне располагаются реляционные SQL-ориентированные СУБД типа SQL Server, Oracle и т.д. 
На втором — файловые серверы с некоторой системой оперативной обработки или сетевые версии персональных СУБД типа R-Base, FoxPro, Access и т.д. 
На самом нижнем уровне расположены локальные ПК отдельных пользователей с персональными источниками данных. Чаще всего информация на них собирается в виде файлов офисных приложений — Word, Excel, текстовых файлов и т.д.
Описание слайда:
Пример консолидации данных предприятия Процесс сбора, хранения и оперативной обработки данных на типичном предприятии обычно содержит несколько уровней: На верхнем уровне располагаются реляционные SQL-ориентированные СУБД типа SQL Server, Oracle и т.д. На втором — файловые серверы с некоторой системой оперативной обработки или сетевые версии персональных СУБД типа R-Base, FoxPro, Access и т.д. На самом нижнем уровне расположены локальные ПК отдельных пользователей с персональными источниками данных. Чаще всего информация на них собирается в виде файлов офисных приложений — Word, Excel, текстовых файлов и т.д.

Слайд 38





Пример консолидации данных предприятия
Из источников данных всех перечисленных уровней информация в соответствии с некоторым регламентом должна перемещаться в ХД. Для этого необходимо:
обеспечить выгрузку данных из источников, 
провести их преобразование к виду, соответствующему структуре ХД, 
а при необходимости выполнить их обогащение и очистку.
Описание слайда:
Пример консолидации данных предприятия Из источников данных всех перечисленных уровней информация в соответствии с некоторым регламентом должна перемещаться в ХД. Для этого необходимо: обеспечить выгрузку данных из источников, провести их преобразование к виду, соответствующему структуре ХД, а при необходимости выполнить их обогащение и очистку.

Слайд 39





Консолидация данных
Консолидация данных является сложной многоступенчатой процедурой и важнейшей составляющей аналитического процесса, обеспечивающей высокий уровень аналитических решений.
Преимуществом консолидации:
позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения.
Сложности консолидации:
поддержка консолидации требует значительных вычислительных ресурсов
для поддержки конечного места хранения необходимы существенные ресурсы памяти 
с учетом постоянно совершенствования аппаратных средств эти сложности не являются неразрешимой проблемой
Описание слайда:
Консолидация данных Консолидация данных является сложной многоступенчатой процедурой и важнейшей составляющей аналитического процесса, обеспечивающей высокий уровень аналитических решений. Преимуществом консолидации: позволяет осуществлять трансформацию значительных объемов данных (реструктуризацию, согласование, очистку и/или агрегирование) в процессе их передачи от первичных систем к конечным местам хранения. Сложности консолидации: поддержка консолидации требует значительных вычислительных ресурсов для поддержки конечного места хранения необходимы существенные ресурсы памяти с учетом постоянно совершенствования аппаратных средств эти сложности не являются неразрешимой проблемой

Слайд 40





Виртуализации данных 
В основе федерализации лежит виртуализация данных
 виртуализация - абстрагировании данных от конкретной формы их хранения 
любая виртуализация подразумевает сбор ресурсов в общий пул и их дальнейшее распределение между потребителями
Описание слайда:
Виртуализации данных В основе федерализации лежит виртуализация данных виртуализация - абстрагировании данных от конкретной формы их хранения любая виртуализация подразумевает сбор ресурсов в общий пул и их дальнейшее распределение между потребителями

Слайд 41





Общая схема виртуализации данных 
данные, физически оставаясь на месте, объединяются в один виртуальный пул, а затем поступают в системы бизнес-аналитики, приложения, корпоративные коллажи
Описание слайда:
Общая схема виртуализации данных данные, физически оставаясь на месте, объединяются в один виртуальный пул, а затем поступают в системы бизнес-аналитики, приложения, корпоративные коллажи

Слайд 42





Процесс виртуализации:
Виртуализация данных — процесс предоставления данных пользователям посредством интерфейса, скрывающего все технические аспекты хранения данных (способ хранения, местоположение, структура, язык доступа). 
Логически местом для виртуализации данных служит дополнительный промежуточный уровень, изолирующий физическое хранение данных от приложений, которые не должны знать, на каких серверах и в каких базах находятся используемые ими данные. 
При этом могут быть применены самые разные технические приемы
Описание слайда:
Процесс виртуализации: Виртуализация данных — процесс предоставления данных пользователям посредством интерфейса, скрывающего все технические аспекты хранения данных (способ хранения, местоположение, структура, язык доступа). Логически местом для виртуализации данных служит дополнительный промежуточный уровень, изолирующий физическое хранение данных от приложений, которые не должны знать, на каких серверах и в каких базах находятся используемые ими данные. При этом могут быть применены самые разные технические приемы

Слайд 43





Технические приемы виртуализации
федерирующий сервер, единообразно представляющий данные из разных источников, с тем чтобы приложения видели данные как одно большое хранилище;
виртуализация, сосредоточенная в сервисной шине предприятия (Enterprise Service Bus, ESB), выполняющей функции абстрагирования и предоставляющей данные приложениям в форме сервисов;
облако, содержащее данные (одна из возможных форм виртуализации); где и как хранятся данные, пользователю неизвестно;
виртуальная база данных в памяти, подпитываемая из физических СУБД;
собственное решение для конкретной организации.
Описание слайда:
Технические приемы виртуализации федерирующий сервер, единообразно представляющий данные из разных источников, с тем чтобы приложения видели данные как одно большое хранилище; виртуализация, сосредоточенная в сервисной шине предприятия (Enterprise Service Bus, ESB), выполняющей функции абстрагирования и предоставляющей данные приложениям в форме сервисов; облако, содержащее данные (одна из возможных форм виртуализации); где и как хранятся данные, пользователю неизвестно; виртуальная база данных в памяти, подпитываемая из физических СУБД; собственное решение для конкретной организации.

Слайд 44





Федерализация данных
Федерализация данных — одна из возможных форм организации данных в гетерогенных хранилищах, предусматривающая единообразный доступ к ним. 
Виртуализация не обязательно предполагает федерализацию, но результатом федерации всегда является виртуализация.
Описание слайда:
Федерализация данных Федерализация данных — одна из возможных форм организации данных в гетерогенных хранилищах, предусматривающая единообразный доступ к ним. Виртуализация не обязательно предполагает федерализацию, но результатом федерации всегда является виртуализация.

Слайд 45





Компоненты системы виртуализации
Описание слайда:
Компоненты системы виртуализации

Слайд 46





Федерализация данных 
федерализация данных - это обеспечение единой виртуальной картины одного или нескольких источников исходных данных. 
федерализация позволяет извлекать данные из различных источников, объединять их и представлять аналитику в режиме реального времени
при этом  физического перемещения данных не происходит: данные остаются у владельцев, доступ к ним всегда осуществляется при необходимости (при выполнении запроса). 
при федерализации данных образуется единое виртуальное информационное пространство, данные в котором могут храниться в различных источниках, однако информация о расположении данных недоступна запрашивающей стороне
Описание слайда:
Федерализация данных федерализация данных - это обеспечение единой виртуальной картины одного или нескольких источников исходных данных. федерализация позволяет извлекать данные из различных источников, объединять их и представлять аналитику в режиме реального времени при этом физического перемещения данных не происходит: данные остаются у владельцев, доступ к ним всегда осуществляется при необходимости (при выполнении запроса). при федерализации данных образуется единое виртуальное информационное пространство, данные в котором могут храниться в различных источниках, однако информация о расположении данных недоступна запрашивающей стороне

Слайд 47





Федерализация данных
все необходимые преобразования данных осуществляются при их извлечении из источников
некоторые федеративные решения могут работать с метаданными, которые отражают семантические связи между элементами данных в источниках
изучение и профилирование первичных данных, необходимых для федерализации, несильно отличаются от аналогичных процедур, требуемых для консолидации 
интеграция корпоративной информации (Enterprise information integration, сокр. EII) — это пример технологии, которая поддерживает федеративный подход к интеграции данных
Описание слайда:
Федерализация данных все необходимые преобразования данных осуществляются при их извлечении из источников некоторые федеративные решения могут работать с метаданными, которые отражают семантические связи между элементами данных в источниках изучение и профилирование первичных данных, необходимых для федерализации, несильно отличаются от аналогичных процедур, требуемых для консолидации интеграция корпоративной информации (Enterprise information integration, сокр. EII) — это пример технологии, которая поддерживает федеративный подход к интеграции данных

Слайд 48





Преимущества федерализации данных
федеративный подход - обеспечивает доступ к текущим данным и избавляет от необходимости консолидировать первичные данные в новом складе данных
федерализацию данных возможно использовать в тех случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет (например при подготовке отчетов и оперативной обработки запросов)
федерализация данных полезна в тех случаях, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных систем
федерализация могла бы использоваться как кратковременное решение для интеграции данных после приобретения или слияния компаний.
Описание слайда:
Преимущества федерализации данных федеративный подход - обеспечивает доступ к текущим данным и избавляет от необходимости консолидировать первичные данные в новом складе данных федерализацию данных возможно использовать в тех случаях, когда стоимость консолидации данных перевешивает бизнес-преимущества, которые она предоставляет (например при подготовке отчетов и оперативной обработки запросов) федерализация данных полезна в тех случаях, когда политика безопасности данных и лицензионные ограничения запрещают копирование данных первичных систем федерализация могла бы использоваться как кратковременное решение для интеграции данных после приобретения или слияния компаний.

Слайд 49





Недостатки федерализации данных
федерализация данных не очень хорошо подходит для: 
извлечения и согласования больших массивов данных 
для тех приложений, где существуют серьезные проблемы с качеством данных в первичных системах. 
федерализация данных оказывает негативное влияние на  производительность программы-приложения за счет дополнительных затрат на доступ к многочисленным источникам данных
Описание слайда:
Недостатки федерализации данных федерализация данных не очень хорошо подходит для: извлечения и согласования больших массивов данных для тех приложений, где существуют серьезные проблемы с качеством данных в первичных системах. федерализация данных оказывает негативное влияние на производительность программы-приложения за счет дополнительных затрат на доступ к многочисленным источникам данных

Слайд 50





Распространение данных
приложения распространения данных осуществляют копирование данных из одного места в другое
эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения
обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно
большинство технологий синхронного распространения данных поддерживают двусторонний обмен данными между первичными и конечными системами
примерами технологий, поддерживающих распространение данных, являются интеграция корпоративных приложений (Enterprise application integration, сокр. EAI) и тиражирование корпоративных данных (Еnterprise data replication, сокр. EDR)
Описание слайда:
Распространение данных приложения распространения данных осуществляют копирование данных из одного места в другое эти приложения обычно работают в оперативном режиме и производят перемещение данных к местам назначения обновления в первичной системе могут передаваться в конечную систему синхронно или асинхронно большинство технологий синхронного распространения данных поддерживают двусторонний обмен данными между первичными и конечными системами примерами технологий, поддерживающих распространение данных, являются интеграция корпоративных приложений (Enterprise application integration, сокр. EAI) и тиражирование корпоративных данных (Еnterprise data replication, сокр. EDR)

Слайд 51





Распространение данных
Преимущества:
метод распространения данных может быть использован для перемещения данных в режиме реального времени или близком к нему. 
гарантируется доставка данных и их двустороннее распространение 
Метод распространения данных может использоваться для:
уравновешивания рабочей нагрузки, 
создания резервных копий и
восстановления данных, в том числе в случае чрезвычайных ситуаций
Описание слайда:
Распространение данных Преимущества: метод распространения данных может быть использован для перемещения данных в режиме реального времени или близком к нему. гарантируется доставка данных и их двустороннее распространение Метод распространения данных может использоваться для: уравновешивания рабочей нагрузки, создания резервных копий и восстановления данных, в том числе в случае чрезвычайных ситуаций



Похожие презентации
Mypresentation.ru
Загрузить презентацию