02 edited (1) - презентация, доклад, проект скачать

Нажмите для полного просмотра!

Содержание ▲

Вы можете ознакомиться и скачать презентацию на тему 02 edited (1). Доклад-сообщение содержит 45 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации

Слайд 1

Описание слайда:

Обзор инструментов обработки Big Data

Слайд 2

Описание слайда:

Жизненный цикл данных 1. Собрать данные; 2. Преобразовать данные в формат, подходящий для их хранения; 3. Произвести очистку данных; 4. Проанализировать данные; 5. Использовать результаты анализа; 6. Хранить данные; 7. Уничтожить данные; 8. Вновь начать с шага 1.

Слайд 3

Описание слайда:

Google Big Table Постоянная задержка менее 10 мс. Репликация обеспечивает более высокую доступность, долговечность и отказоустойчивость перед лицом зональных сбоев. Идеально подходит для рекламных технологий, финансовых приложений и интернета вещей. Механизм хранения для приложений машинного обучения Простая интеграция с инструментами больших данных с открытым исходным кодом

Слайд 4

Описание слайда:

Hadoop Платформа программного обеспечения с открытым исходным кодом, поддерживающая распределенные приложения с интенсивным использованием данных, лицензированная по лицензии Apache v2 Высокая масштабируемость и доступность; Может использовать обычное (дешевое!) оборудование с небольшим резервированием; Отказоустойчивость; Перемещает вычисления, а не данные;

Слайд 5

Описание слайда:

ElasticSearch Гибкий и мощный открытый распределенный поисковый и аналитический движок в реальном времени для облака. Возможности: Работа с данными в реальном времени, аналитика в реальном времени, распределенность, высокая доступность, многопользовательский режим, полнотекстовый поиск, ориентированный на документы, управление конфликтами, схемонезависимый, REST API, персистентность для каждой операции, лицензия с открытым исходным кодом apache 2, сборка поверх Apache Lucene. Недостатки: Жертвует способностью обрабатывать данные, чтобы получить максимальную производительность для группировки и фильтрации задач.

Слайд 6

Описание слайда:

Cassandra O (1) поиск узла; Хранилище с подходом Ключ – Значение; Хранилище данных на основе столбцов; Высоко распределенная и децентрализованная (нет главного узла); Эластичность; Отказоустойчивая - репликации; Разреженное хранение; Каждый столбец имеет значение и временную метку, актуальными считаются самые свежие данные.

Слайд 7

Описание слайда:

Cassandra 7

Слайд 8

Описание слайда:

Cassandra Дробление: Как данные распределяются по узлам; Репликация: Как данные дублируются на узлах; Членство в кластере Как узлы добавляются и удаляются из кластера;

Слайд 9

Описание слайда:

Cassandra Узлы логически структурированы в кольцевой топологии. Хешированное значение ключа, связанного с разделом данных, используется для назначения его узлу в кольце. Хеширование округляется после определенного значения для поддержки структуры кольца. Слабо загруженные узлы перемещаются, чтобы облегчить нагрузку на сильно загруженные узлы.

Слайд 10

Описание слайда:

Cassandra Каждый элемент данных реплицируется в N (фактор репликации) узлах. Различные политики репликации Rack Unaware - реплицируйте данные на N-1 последовательных узлах после своего координатора Rack Aware - использует «Zookeeper» для выбора лидера, который сообщает узлам диапазон, для которого они являются репликами Datacenter Aware - аналогично Rack Aware, но лидер выбирается на уровне Datacenter, а не на уровне Rack.

Слайд 11

Описание слайда:

Cassandra

Слайд 12

Описание слайда:

Cassandra

Слайд 13

Описание слайда:

Cassandra: использование

Слайд 14

Описание слайда:

Cassandra

Слайд 15

Описание слайда:

MongoDB Open-source; Основана на документах – объектах в формате BSON (Binary JSON); “High performance, high availability”; Автоматическое масштабирование; C-P по теореме CAP; Eventually consistent Данные в конце концов попадут на все узлы, но нет требования, чтобы все узлы всегда содержали самые свежие данные.

Слайд 16

Описание слайда:

MongoDB Авто-Sharding (горизонтальное масштабирование); Большие наборы данных могут быть разделены и распределены по нескольким шардам; Быстрые обновления на месте; Операции обновления являются атомарными для производительности без конкуренции; Интегрированный Map-Reduce;

Слайд 17

Описание слайда:

MongoDB Высокопроизводительные и масштабируемые приложения; Большинство веб-приложений, в которых вы ранее использовали SQL; Не используйте для: Приложений, критически чувствительных к выполнению транзакций.

Слайд 18

Описание слайда:

MongoDB

Слайд 19

Описание слайда:

CouchDB CouchDB - это документно-ориентированная СУБД, не реляционная: без схемы базы данных; Модель ключ-значение; Распределенная и отказоустойчивая; Данные моделируются как автономные документы: документ представлен структурой JSON с атрибутами любого типа. Запросы выполняются с помощью JavaScript. Очень похожа на ElasticSearch, но с более широким набором запросов, и медленнее.

Слайд 20

Описание слайда:

CouchDB Различные типы данных поддерживаются как дополнительные документы (видео, аудио, изображения и т. Д.) Связь с приложениями и пользователями осуществляется через RESTful сервисы : «Передача репрезентативного состояния» - программная модель клиент-серверной архитектуры, используемая для распределенных систем Протокол связи HTTP: методы HTTP используются явно; Stateless Выставляет структуру через URI Данные передаются в формате XML или JSON (для CouchDB).

Слайд 21

Описание слайда:

CouchDB Протокол: GET извлекает ресурс, на который ссылается URI. PUT создает ресурс по указанному URI. POST отправляет сообщение (вместе с некоторыми данными) существующему ресурс. DELETE удаляет ресурс. Очень удобно в веб-среде: нет необходимости использовать клиентскую библиотеку - Документы могут быть легко включены в веб-интерфейс.

Слайд 22

Описание слайда:

CouchDB Отправить запрос HTTP, получить ответ. $ curl -X GET {"couchdb":"Welcome","version":"1.0.1"} Создать базу данных. $ curl -X PUT {"ok":true} Создать документ – поместить в БД ресурс. $ curl -X PUT \ -d ’{"key": "value"}’ {"ok":true,"id":"myDoc","rev":"1-25eca"} Получить документ по его URI: $ curl -X GET {"_id":"myDoc","_rev":"1-25eca","key":"value"}

Слайд 23

Описание слайда:

Подводя итог: Кассандра и CouchDB предлагают доступность. Hadoop и MongoDB предлагают согласованность. ElasticSearch следует примеру реляционных баз данных и предлагает и то, и другое по цене отказа в работе в случае разбиения кластера на части.

Слайд 24

Описание слайда:

Flume Сбор, агрегация потоковых данных о событиях; Обычно используется для данных журналов событий; Значительные преимущества перед специальными решениями; Надежный, масштабируемый, управляемый, настраиваемый и высокопроизводительный; Декларативная, динамическая конфигурация; Контекстная маршрутизация; Многофункциональный; Полностью расширяемый;

Слайд 25

Описание слайда:

Flume Событие - это основная единица данных, транспортируемых Flume от пункта отправления до конечного пункта назначения. Событие - это полезная нагрузка в виде байтового массива, сопровождаемая необязательными заголовками. Полезная нагрузка непрозрачна для Flume Заголовки указываются как неупорядоченная коллекция пар строк (ключ-значение), причем ключи являются уникальными для всей коллекции. Заголовки могут быть использованы для контекстной маршрутизации

Слайд 26

Описание слайда:

Flume Сущность, которая генерирует события и отправляет их одному или нескольким агентам. Примеры: Flume log4j Appender Пользовательский клиент, использующий Client SDK (org.apache.flume.api) Отделяет Flume от системы, из которой поступают данные о событиях; Требуется не всегда.

Слайд 27

Описание слайда:

Flume Контейнер для размещения источников, каналов, приемников и других компонентов, которые позволяют переносить события из одного места в другое. Фундаментальная часть потока Flume; Обеспечивает поддержку конфигурации, управления жизненным циклом и мониторинга размещенных компонентов.

Слайд 28

Описание слайда:

Flume Активный компонент, который получает события из специализированного местоположения или механизма и размещает его на одном или нескольких каналах. Различные типы источников: Специализированные источники для интеграции с известными системами. Пример: системный журнал, Netcat Автогенерация источников: Exec, SEQ Источники IPC для связи между агентами: Avro Требуется хотя бы один канал для работы.

Слайд 29

Описание слайда:

Flume Пассивный компонент, который буферизует входящие события до тех пор, пока они не будут взяты из канала приемниками. Различные каналы предлагают разные уровни постоянства хранения: Канал памяти: энергозависимый Файловый канал: поддерживается реализацией WAL Канал JDBC: поддерживается встроенной базой данных Канал полностью транзакционный; Обеспечивает слабые гарантии сохранения порядка; Может работать с любым количеством источников и приемников.

Слайд 30

Описание слайда:

Flume Активный компонент, который забирает события из канала и передает их в пункт назначения следующего перехода. Различные типы приемников: Терминальные приемники, которые вносят события в их конечный пункт назначения. Например: HDFS, Hbase Авто-потребляющие приемники. Например: null sink. Приемник IPC для связи между агентами: Avro Требуется ровно один канал для работы.

Слайд 31

Описание слайда:

Flume

Слайд 32

Описание слайда:

Flume

Слайд 33

Описание слайда:

Flume

Слайд 34

Описание слайда:

Logstash Logstash - это приложение, которое собирает файлы журналов с серверов приложений, анализирует их, форматирует и отправляет в Elastic Search. Elastic Search хранит и индексирует данные, которые предоставляет Kibana. Конечные пользователи получают доступ к веб-интерфейсу Kibana для просмотра данных. Очень быстрое решение, но менее функциональное чем Flume, и ориентированное прежде всего на работу со стеком ELK.

Слайд 35

Описание слайда:

Kafka Очень высокая производительность; Эластически масштабируемая; Низкие эксплуатационные расходы; Надежная, высокодоступная; Гарантирует: Проверку целостности данных; Доставку данных минимум один раз; Доставку данных с сохранением порядка, в пределах раздела (partition).

Слайд 36

Описание слайда:

OpenRefine Открытый инструмент для очистки больших данных, предназначенный для очистки сырых данных. Удобный; Хорошее сообщество; Требуются некоторые знания о подходах к очистке данных.

Слайд 37

Описание слайда:

DataCleaner Удобный инструмент для очистки больших данных, предназначенный для очистки сырых данных. Закрытый исходный код, платный по подписке.

Слайд 38

Описание слайда:

Kibana Веб-плагин для ElasticSearch, который позволяет осуществлять полную визуализацию данных кластера. Гибкая платформа для аналитики и визуализации. Сводные данные и графики потоковой передачи данных в реальном времени. Интуитивно понятный интерфейс для различных пользователей. Мгновенный обмен и встраивание панелей мониторинга.

Слайд 39

Описание слайда:

Matplotlib Matplotlib - это библиотека Python 2D для построения графиков, которая генерирует графики уровня публикаций в различных печатных форматах и интерактивных средах на разных платформах. Matplotlib может использоваться в скриптах Python, оболочках Python и IPython, записной книжке Jupyter, серверах веб-приложений и четырех наборах инструментов графического интерфейса пользователя.

Слайд 40

Описание слайда:

Tableau Tableau - это инструмент визуализации данных, в котором основное внимание уделяется бизнес-аналитике. Вы можете создавать карты, гистограммы, точечные диаграммы и многое другое без необходимости программирования. Недавно вышел веб-коннектор, который позволяет подключаться к базе данных или API, что дает возможность получать живые данные в визуализации. Tableau Public бесплатен, остальные версии платные.

Слайд 41

Описание слайда:

Python Jupyter Notebooks; Matplotlib; Hadoop; Spark; PanDA. NumPy, SciPy, Scikit-Learn, и т. д.

Слайд 42

Описание слайда:

R R - это свободная программная среда для статистических вычислений и графики. R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. Д.) И графические методы и обладает широкими возможностями расширения. Язык S часто является средством выбора для исследования в области статистической методологии, а R предоставляет открытый исходный код для участия в этой деятельности.

Слайд 43

Описание слайда:

MLLib Используется в Java, Scala, Python и R. Высококачественные алгоритмы, в 100 раз быстрее, чем MapReduce. Работает везде, где работает Spark, на Hadoop, Apache Mesos, Kubernetes, в автономном режиме или в облаке, с различными источниками данных.

Слайд 44

Описание слайда:

Заключение При выборе технологий обратите пристальное внимание на сильные и слабые стороны конкретных реализаций, а также на характер ваших данных и компромиссы, на которые вы можете и не можете пойти.