🗊 Презентация 02 edited (1)

Категория: Образование
Нажмите для полного просмотра!
02 edited (1), слайд №1 02 edited (1), слайд №2 02 edited (1), слайд №3 02 edited (1), слайд №4 02 edited (1), слайд №5 02 edited (1), слайд №6 02 edited (1), слайд №7 02 edited (1), слайд №8 02 edited (1), слайд №9 02 edited (1), слайд №10 02 edited (1), слайд №11 02 edited (1), слайд №12 02 edited (1), слайд №13 02 edited (1), слайд №14 02 edited (1), слайд №15 02 edited (1), слайд №16 02 edited (1), слайд №17 02 edited (1), слайд №18 02 edited (1), слайд №19 02 edited (1), слайд №20 02 edited (1), слайд №21 02 edited (1), слайд №22 02 edited (1), слайд №23 02 edited (1), слайд №24 02 edited (1), слайд №25 02 edited (1), слайд №26 02 edited (1), слайд №27 02 edited (1), слайд №28 02 edited (1), слайд №29 02 edited (1), слайд №30 02 edited (1), слайд №31 02 edited (1), слайд №32 02 edited (1), слайд №33 02 edited (1), слайд №34 02 edited (1), слайд №35 02 edited (1), слайд №36 02 edited (1), слайд №37 02 edited (1), слайд №38 02 edited (1), слайд №39 02 edited (1), слайд №40 02 edited (1), слайд №41 02 edited (1), слайд №42 02 edited (1), слайд №43 02 edited (1), слайд №44 02 edited (1), слайд №45

Содержание

Вы можете ознакомиться и скачать презентацию на тему 02 edited (1). Доклад-сообщение содержит 45 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1


Обзор инструментов обработки Big Data
Описание слайда:
Обзор инструментов обработки Big Data

Слайд 2


Жизненный цикл данных 1. Собрать данные; 2. Преобразовать данные в формат, подходящий для их хранения; 3. Произвести очистку данных; 4....
Описание слайда:
Жизненный цикл данных 1. Собрать данные; 2. Преобразовать данные в формат, подходящий для их хранения; 3. Произвести очистку данных; 4. Проанализировать данные; 5. Использовать результаты анализа; 6. Хранить данные; 7. Уничтожить данные; 8. Вновь начать с шага 1.

Слайд 3


Google Big Table Постоянная задержка менее 10 мс. Репликация обеспечивает более высокую доступность, долговечность и отказоустойчивость перед лицом...
Описание слайда:
Google Big Table Постоянная задержка менее 10 мс. Репликация обеспечивает более высокую доступность, долговечность и отказоустойчивость перед лицом зональных сбоев. Идеально подходит для рекламных технологий, финансовых приложений и интернета вещей. Механизм хранения для приложений машинного обучения Простая интеграция с инструментами больших данных с открытым исходным кодом

Слайд 4


Hadoop Платформа программного обеспечения с открытым исходным кодом, поддерживающая распределенные приложения с интенсивным использованием данных,...
Описание слайда:
Hadoop Платформа программного обеспечения с открытым исходным кодом, поддерживающая распределенные приложения с интенсивным использованием данных, лицензированная по лицензии Apache v2 Высокая масштабируемость и доступность; Может использовать обычное (дешевое!) оборудование с небольшим резервированием; Отказоустойчивость; Перемещает вычисления, а не данные;

Слайд 5


ElasticSearch Гибкий и мощный открытый распределенный поисковый и аналитический движок в реальном времени для облака. Возможности: Работа с данными в...
Описание слайда:
ElasticSearch Гибкий и мощный открытый распределенный поисковый и аналитический движок в реальном времени для облака. Возможности: Работа с данными в реальном времени, аналитика в реальном времени, распределенность, высокая доступность, многопользовательский режим, полнотекстовый поиск, ориентированный на документы, управление конфликтами, схемонезависимый, REST API, персистентность для каждой операции, лицензия с открытым исходным кодом apache 2, сборка поверх Apache Lucene. Недостатки: Жертвует способностью обрабатывать данные, чтобы получить максимальную производительность для группировки и фильтрации задач.

Слайд 6


Cassandra O (1) поиск узла; Хранилище с подходом Ключ – Значение; Хранилище данных на основе столбцов; Высоко распределенная и децентрализованная...
Описание слайда:
Cassandra O (1) поиск узла; Хранилище с подходом Ключ – Значение; Хранилище данных на основе столбцов; Высоко распределенная и децентрализованная (нет главного узла); Эластичность; Отказоустойчивая - репликации; Разреженное хранение; Каждый столбец имеет значение и временную метку, актуальными считаются самые свежие данные.

Слайд 7


Cassandra 7
Описание слайда:
Cassandra 7

Слайд 8


Cassandra Дробление: Как данные распределяются по узлам; Репликация: Как данные дублируются на узлах; Членство в кластере Как узлы добавляются и...
Описание слайда:
Cassandra Дробление: Как данные распределяются по узлам; Репликация: Как данные дублируются на узлах; Членство в кластере Как узлы добавляются и удаляются из кластера;

Слайд 9


Cassandra Узлы логически структурированы в кольцевой топологии. Хешированное значение ключа, связанного с разделом данных, используется для...
Описание слайда:
Cassandra Узлы логически структурированы в кольцевой топологии. Хешированное значение ключа, связанного с разделом данных, используется для назначения его узлу в кольце. Хеширование округляется после определенного значения для поддержки структуры кольца. Слабо загруженные узлы перемещаются, чтобы облегчить нагрузку на сильно загруженные узлы.

Слайд 10


Cassandra Каждый элемент данных реплицируется в N (фактор репликации) узлах. Различные политики репликации Rack Unaware - реплицируйте данные на N-1...
Описание слайда:
Cassandra Каждый элемент данных реплицируется в N (фактор репликации) узлах. Различные политики репликации Rack Unaware - реплицируйте данные на N-1 последовательных узлах после своего координатора Rack Aware - использует «Zookeeper» для выбора лидера, который сообщает узлам диапазон, для которого они являются репликами Datacenter Aware - аналогично Rack Aware, но лидер выбирается на уровне Datacenter, а не на уровне Rack.

Слайд 11


Cassandra
Описание слайда:
Cassandra

Слайд 12


Cassandra
Описание слайда:
Cassandra

Слайд 13


Cassandra: использование
Описание слайда:
Cassandra: использование

Слайд 14


Cassandra
Описание слайда:
Cassandra

Слайд 15


MongoDB Open-source; Основана на документах – объектах в формате BSON (Binary JSON); “High performance, high availability”; Автоматическое...
Описание слайда:
MongoDB Open-source; Основана на документах – объектах в формате BSON (Binary JSON); “High performance, high availability”; Автоматическое масштабирование; C-P по теореме CAP; Eventually consistent Данные в конце концов попадут на все узлы, но нет требования, чтобы все узлы всегда содержали самые свежие данные.

Слайд 16


MongoDB Авто-Sharding (горизонтальное масштабирование); Большие наборы данных могут быть разделены и распределены по нескольким шардам; Быстрые...
Описание слайда:
MongoDB Авто-Sharding (горизонтальное масштабирование); Большие наборы данных могут быть разделены и распределены по нескольким шардам; Быстрые обновления на месте; Операции обновления являются атомарными для производительности без конкуренции; Интегрированный Map-Reduce;

Слайд 17


MongoDB Высокопроизводительные и масштабируемые приложения; Большинство веб-приложений, в которых вы ранее использовали SQL; Не используйте для:...
Описание слайда:
MongoDB Высокопроизводительные и масштабируемые приложения; Большинство веб-приложений, в которых вы ранее использовали SQL; Не используйте для: Приложений, критически чувствительных к выполнению транзакций.

Слайд 18


MongoDB
Описание слайда:
MongoDB

Слайд 19


CouchDB CouchDB - это документно-ориентированная СУБД, не реляционная: без схемы базы данных; Модель ключ-значение; Распределенная и...
Описание слайда:
CouchDB CouchDB - это документно-ориентированная СУБД, не реляционная: без схемы базы данных; Модель ключ-значение; Распределенная и отказоустойчивая; Данные моделируются как автономные документы: документ представлен структурой JSON с атрибутами любого типа. Запросы выполняются с помощью JavaScript. Очень похожа на ElasticSearch, но с более широким набором запросов, и медленнее.

Слайд 20


CouchDB Различные типы данных поддерживаются как дополнительные документы (видео, аудио, изображения и т. Д.) Связь с приложениями и пользователями...
Описание слайда:
CouchDB Различные типы данных поддерживаются как дополнительные документы (видео, аудио, изображения и т. Д.) Связь с приложениями и пользователями осуществляется через RESTful сервисы : «Передача репрезентативного состояния» - программная модель клиент-серверной архитектуры, используемая для распределенных систем Протокол связи HTTP: методы HTTP используются явно; Stateless Выставляет структуру через URI Данные передаются в формате XML или JSON (для CouchDB).

Слайд 21


CouchDB Протокол: GET извлекает ресурс, на который ссылается URI. PUT создает ресурс по указанному URI. POST отправляет сообщение (вместе с...
Описание слайда:
CouchDB Протокол: GET извлекает ресурс, на который ссылается URI. PUT создает ресурс по указанному URI. POST отправляет сообщение (вместе с некоторыми данными) существующему ресурс. DELETE удаляет ресурс. Очень удобно в веб-среде: нет необходимости использовать клиентскую библиотеку - Документы могут быть легко включены в веб-интерфейс.

Слайд 22


CouchDB Отправить запрос HTTP, получить ответ. $ curl -X GET {"couchdb":"Welcome","version":"1.0.1"} Создать...
Описание слайда:
CouchDB Отправить запрос HTTP, получить ответ. $ curl -X GET {"couchdb":"Welcome","version":"1.0.1"} Создать базу данных. $ curl -X PUT {"ok":true} Создать документ – поместить в БД ресурс. $ curl -X PUT \ -d ’{"key": "value"}’ {"ok":true,"id":"myDoc","rev":"1-25eca"} Получить документ по его URI: $ curl -X GET {"_id":"myDoc","_rev":"1-25eca","key":"value"}

Слайд 23


Подводя итог: Кассандра и CouchDB предлагают доступность. Hadoop и MongoDB предлагают согласованность. ElasticSearch следует примеру реляционных баз...
Описание слайда:
Подводя итог: Кассандра и CouchDB предлагают доступность. Hadoop и MongoDB предлагают согласованность. ElasticSearch следует примеру реляционных баз данных и предлагает и то, и другое по цене отказа в работе в случае разбиения кластера на части.

Слайд 24


Flume Сбор, агрегация потоковых данных о событиях; Обычно используется для данных журналов событий; Значительные преимущества перед специальными...
Описание слайда:
Flume Сбор, агрегация потоковых данных о событиях; Обычно используется для данных журналов событий; Значительные преимущества перед специальными решениями; Надежный, масштабируемый, управляемый, настраиваемый и высокопроизводительный; Декларативная, динамическая конфигурация; Контекстная маршрутизация; Многофункциональный; Полностью расширяемый;

Слайд 25


Flume Событие - это основная единица данных, транспортируемых Flume от пункта отправления до конечного пункта назначения. Событие - это полезная...
Описание слайда:
Flume Событие - это основная единица данных, транспортируемых Flume от пункта отправления до конечного пункта назначения. Событие - это полезная нагрузка в виде байтового массива, сопровождаемая необязательными заголовками. Полезная нагрузка непрозрачна для Flume Заголовки указываются как неупорядоченная коллекция пар строк (ключ-значение), причем ключи являются уникальными для всей коллекции. Заголовки могут быть использованы для контекстной маршрутизации

Слайд 26


Flume Сущность, которая генерирует события и отправляет их одному или нескольким агентам. Примеры: Flume log4j Appender Пользовательский клиент,...
Описание слайда:
Flume Сущность, которая генерирует события и отправляет их одному или нескольким агентам. Примеры: Flume log4j Appender Пользовательский клиент, использующий Client SDK (org.apache.flume.api) Отделяет Flume от системы, из которой поступают данные о событиях; Требуется не всегда.

Слайд 27


Flume Контейнер для размещения источников, каналов, приемников и других компонентов, которые позволяют переносить события из одного места в другое....
Описание слайда:
Flume Контейнер для размещения источников, каналов, приемников и других компонентов, которые позволяют переносить события из одного места в другое. Фундаментальная часть потока Flume; Обеспечивает поддержку конфигурации, управления жизненным циклом и мониторинга размещенных компонентов.

Слайд 28


Flume Активный компонент, который получает события из специализированного местоположения или механизма и размещает его на одном или нескольких...
Описание слайда:
Flume Активный компонент, который получает события из специализированного местоположения или механизма и размещает его на одном или нескольких каналах. Различные типы источников: Специализированные источники для интеграции с известными системами. Пример: системный журнал, Netcat Автогенерация источников: Exec, SEQ Источники IPC для связи между агентами: Avro Требуется хотя бы один канал для работы.

Слайд 29


Flume Пассивный компонент, который буферизует входящие события до тех пор, пока они не будут взяты из канала приемниками. Различные каналы предлагают...
Описание слайда:
Flume Пассивный компонент, который буферизует входящие события до тех пор, пока они не будут взяты из канала приемниками. Различные каналы предлагают разные уровни постоянства хранения: Канал памяти: энергозависимый Файловый канал: поддерживается реализацией WAL Канал JDBC: поддерживается встроенной базой данных Канал полностью транзакционный; Обеспечивает слабые гарантии сохранения порядка; Может работать с любым количеством источников и приемников.

Слайд 30


Flume Активный компонент, который забирает события из канала и передает их в пункт назначения следующего перехода. Различные типы приемников:...
Описание слайда:
Flume Активный компонент, который забирает события из канала и передает их в пункт назначения следующего перехода. Различные типы приемников: Терминальные приемники, которые вносят события в их конечный пункт назначения. Например: HDFS, Hbase Авто-потребляющие приемники. Например: null sink. Приемник IPC для связи между агентами: Avro Требуется ровно один канал для работы.

Слайд 31


Flume
Описание слайда:
Flume

Слайд 32


Flume
Описание слайда:
Flume

Слайд 33


Flume
Описание слайда:
Flume

Слайд 34


Logstash Logstash - это приложение, которое собирает файлы журналов с серверов приложений, анализирует их, форматирует и отправляет в Elastic Search....
Описание слайда:
Logstash Logstash - это приложение, которое собирает файлы журналов с серверов приложений, анализирует их, форматирует и отправляет в Elastic Search. Elastic Search хранит и индексирует данные, которые предоставляет Kibana. Конечные пользователи получают доступ к веб-интерфейсу Kibana для просмотра данных. Очень быстрое решение, но менее функциональное чем Flume, и ориентированное прежде всего на работу со стеком ELK.

Слайд 35


Kafka Очень высокая производительность; Эластически масштабируемая; Низкие эксплуатационные расходы; Надежная, высокодоступная; Гарантирует: Проверку...
Описание слайда:
Kafka Очень высокая производительность; Эластически масштабируемая; Низкие эксплуатационные расходы; Надежная, высокодоступная; Гарантирует: Проверку целостности данных; Доставку данных минимум один раз; Доставку данных с сохранением порядка, в пределах раздела (partition).

Слайд 36


OpenRefine Открытый инструмент для очистки больших данных, предназначенный для очистки сырых данных. Удобный; Хорошее сообщество; Требуются некоторые...
Описание слайда:
OpenRefine Открытый инструмент для очистки больших данных, предназначенный для очистки сырых данных. Удобный; Хорошее сообщество; Требуются некоторые знания о подходах к очистке данных.

Слайд 37


DataCleaner Удобный инструмент для очистки больших данных, предназначенный для очистки сырых данных. Закрытый исходный код, платный по подписке.
Описание слайда:
DataCleaner Удобный инструмент для очистки больших данных, предназначенный для очистки сырых данных. Закрытый исходный код, платный по подписке.

Слайд 38


Kibana Веб-плагин для ElasticSearch, который позволяет осуществлять полную визуализацию данных кластера. Гибкая платформа для аналитики и...
Описание слайда:
Kibana Веб-плагин для ElasticSearch, который позволяет осуществлять полную визуализацию данных кластера. Гибкая платформа для аналитики и визуализации. Сводные данные и графики потоковой передачи данных в реальном времени. Интуитивно понятный интерфейс для различных пользователей. Мгновенный обмен и встраивание панелей мониторинга.

Слайд 39


Matplotlib Matplotlib - это библиотека Python 2D для построения графиков, которая генерирует графики уровня публикаций в различных печатных форматах...
Описание слайда:
Matplotlib Matplotlib - это библиотека Python 2D для построения графиков, которая генерирует графики уровня публикаций в различных печатных форматах и интерактивных средах на разных платформах. Matplotlib может использоваться в скриптах Python, оболочках Python и IPython, записной книжке Jupyter, серверах веб-приложений и четырех наборах инструментов графического интерфейса пользователя.

Слайд 40


Tableau Tableau - это инструмент визуализации данных, в котором основное внимание уделяется бизнес-аналитике. Вы можете создавать карты, гистограммы,...
Описание слайда:
Tableau Tableau - это инструмент визуализации данных, в котором основное внимание уделяется бизнес-аналитике. Вы можете создавать карты, гистограммы, точечные диаграммы и многое другое без необходимости программирования. Недавно вышел веб-коннектор, который позволяет подключаться к базе данных или API, что дает возможность получать живые данные в визуализации. Tableau Public бесплатен, остальные версии платные.

Слайд 41


Python Jupyter Notebooks; Matplotlib; Hadoop; Spark; PanDA. NumPy, SciPy, Scikit-Learn, и т. д.
Описание слайда:
Python Jupyter Notebooks; Matplotlib; Hadoop; Spark; PanDA. NumPy, SciPy, Scikit-Learn, и т. д.

Слайд 42


R R - это свободная программная среда для статистических вычислений и графики. R предоставляет широкий спектр статистических (линейное и нелинейное...
Описание слайда:
R R - это свободная программная среда для статистических вычислений и графики. R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. Д.) И графические методы и обладает широкими возможностями расширения. Язык S часто является средством выбора для исследования в области статистической методологии, а R предоставляет открытый исходный код для участия в этой деятельности.

Слайд 43


MLLib Используется в Java, Scala, Python и R. Высококачественные алгоритмы, в 100 раз быстрее, чем MapReduce. Работает везде, где работает Spark, на...
Описание слайда:
MLLib Используется в Java, Scala, Python и R. Высококачественные алгоритмы, в 100 раз быстрее, чем MapReduce. Работает везде, где работает Spark, на Hadoop, Apache Mesos, Kubernetes, в автономном режиме или в облаке, с различными источниками данных.

Слайд 44


Заключение При выборе технологий обратите пристальное внимание на сильные и слабые стороны конкретных реализаций, а также на характер ваших данных и...
Описание слайда:
Заключение При выборе технологий обратите пристальное внимание на сильные и слабые стороны конкретных реализаций, а также на характер ваших данных и компромиссы, на которые вы можете и не можете пойти.

Слайд 45


Спасибо за внимание! mgubin@tpu.ru
Описание слайда:
Спасибо за внимание! mgubin@tpu.ru



Теги edited
Похожие презентации
Mypresentation.ru
Загрузить презентацию