🗊 Презентация Методы обогащения данных

Категория: Образование
Нажмите для полного просмотра!
Методы обогащения данных, слайд №1 Методы обогащения данных, слайд №2 Методы обогащения данных, слайд №3 Методы обогащения данных, слайд №4 Методы обогащения данных, слайд №5 Методы обогащения данных, слайд №6 Методы обогащения данных, слайд №7 Методы обогащения данных, слайд №8 Методы обогащения данных, слайд №9 Методы обогащения данных, слайд №10 Методы обогащения данных, слайд №11 Методы обогащения данных, слайд №12 Методы обогащения данных, слайд №13 Методы обогащения данных, слайд №14 Методы обогащения данных, слайд №15 Методы обогащения данных, слайд №16 Методы обогащения данных, слайд №17 Методы обогащения данных, слайд №18

Вы можете ознакомиться и скачать презентацию на тему Методы обогащения данных. Доклад-сообщение содержит 18 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1


Методы стандартизации, очистки и обогащения данных
Описание слайда:
Методы стандартизации, очистки и обогащения данных

Слайд 2


Проблема
Описание слайда:
Проблема

Слайд 3


Решение
Описание слайда:
Решение

Слайд 4


Стандартизация: понятие Стандартизация – это унификация представления и приведение к единому формату данных. Задачи: Нормализация баз данных с целью...
Описание слайда:
Стандартизация: понятие Стандартизация – это унификация представления и приведение к единому формату данных. Задачи: Нормализация баз данных с целью удаления избыточности: разбиение на несколько таблиц, выделение первичных ключей… Разбор строк на атомарные объекты: разделение поля «ФИО» на значения «Фамилия», «Имя», «Отчество», разбор адреса по КЛАДР… Унификация представления: преобразование номеров телефонов к стандартному виду +7 (ХХХ) ХХХХХХХ…

Слайд 5


Стандартизация: парсинг Парсинг – грамматический или лексический анализ текста. Осуществляет деление поля на атомарные значения.
Описание слайда:
Стандартизация: парсинг Парсинг – грамматический или лексический анализ текста. Осуществляет деление поля на атомарные значения.

Слайд 6


Стандартизация: словари Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет стандартизировать представление...
Описание слайда:
Стандартизация: словари Использование машинных словарей (справочников имен, телефонных кодов, КЛАДР, БИК…) позволяет стандартизировать представление данных.

Слайд 7


Стандартизация: регулярные выражения Регулярные выражения позволяют производить манипуляции с данными, используя шаблоны: находить в строке...
Описание слайда:
Стандартизация: регулярные выражения Регулярные выражения позволяют производить манипуляции с данными, используя шаблоны: находить в строке подстроки, удовлетворяющие заданному шаблону: поиск жителей, прописанных в Москве… извлекать из строки фрагменты, с заданным стандартом написания: выделение почтового индекса или года рождения… изменять в строке подстроки, соответствующие шаблону: удаление нечисловых символов из паспортных данных или телефона… проверять, соответствует ли строка заданному шаблону: проверка корректности e-mail…

Слайд 8


Очистка данных: понятие Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Задачи: Оценка...
Описание слайда:
Очистка данных: понятие Очистка данных – процесс выявления и исправления ошибок, позволяющий обеспечить качественный анализ. Задачи: Оценка достоверности информации Выявление ошибочных и подозрительных данных: аномалий, дубликатов, противоречий… Исправление выявленных ошибок

Слайд 9


Очистка: частотный анализ Метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности...
Описание слайда:
Очистка: частотный анализ Метод основывается на анализе частоты появления определенного значения или комбинаций таких значений во всей совокупности данных.

Слайд 10


Очистка: контрольные числа В основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности...
Описание слайда:
Очистка: контрольные числа В основе алгоритма контрольных чисел лежит расчет определенных функций, которые применяются для проверки правильности номеров банковских карт, ИНН, СНИЛС, ОКПО, ОКАТО, ОГРН…

Слайд 11


Очистка: схожесть строк Анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения...
Описание слайда:
Очистка: схожесть строк Анализ строк выявляет «похожесть» записей с помощью алгоритмов сравнения значений: метода Левенштейна, Soundex, нахождения максимальной общей подпоследовательности…

Слайд 12


Очистка: дедубликация Дедубликация основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов.
Описание слайда:
Очистка: дедубликация Дедубликация основывается на поиске совпадающих и похожих объектов по определенным стратегиям с целью устранения повторов.

Слайд 13


Очистка: другие методы Для очистки данных используются и другие методы: Формализованные правила: накладывание заранее определенных правил очистки на...
Описание слайда:
Очистка: другие методы Для очистки данных используются и другие методы: Формализованные правила: накладывание заранее определенных правил очистки на контролируемые поля Способы замены: индексирование слов по их звучанию, кодирование… Проверка по статистическим значениям: по доверительному интервалу, средним значениям… Кластерный анализ: проверка написания значения с учетом попадания его в кластер…

Слайд 14


Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными, значимыми и информативными с точки зрения...
Описание слайда:
Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными, значимыми и информативными с точки зрения решения той или иной аналитической задачи. Обогащение – процесс насыщения данных новой информацией, которая позволяет сделать их более ценными, значимыми и информативными с точки зрения решения той или иной аналитической задачи. Задачи: Интеграция данных из множества источников Выявление связей между объектами Заполнение пропусков

Слайд 15


Обогащение: анализ связей Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними.
Описание слайда:
Обогащение: анализ связей Анализ связей исследует взаимосвязанные объекты и определяет закономерности между ними.

Слайд 16


Обогащение: поиск близких объектов Поиск близких объектов основывается на «схожести» значений признаков объектов.
Описание слайда:
Обогащение: поиск близких объектов Поиск близких объектов основывается на «схожести» значений признаков объектов.

Слайд 17


Обогащение: другие методы Обогащение данных предполагает применение и комбинирование множества методов: Реорганизация самих данных: введение...
Описание слайда:
Обогащение: другие методы Обогащение данных предполагает применение и комбинирование множества методов: Реорганизация самих данных: введение кодировок, признаков состояний объектов, подразделение их на категории… Нечеткий поиск: восстановление пропусков с помощью нечетких запросов… Анализ источников данных: рейтингование источников данных по достоверности…

Слайд 18


Результат
Описание слайда:
Результат



Похожие презентации
Mypresentation.ru
Загрузить презентацию