🗊Презентация 02 edited (1)

Категория: Образование
Нажмите для полного просмотра!
02 edited (1), слайд №102 edited (1), слайд №202 edited (1), слайд №302 edited (1), слайд №402 edited (1), слайд №502 edited (1), слайд №602 edited (1), слайд №702 edited (1), слайд №802 edited (1), слайд №902 edited (1), слайд №1002 edited (1), слайд №1102 edited (1), слайд №1202 edited (1), слайд №1302 edited (1), слайд №1402 edited (1), слайд №1502 edited (1), слайд №1602 edited (1), слайд №1702 edited (1), слайд №1802 edited (1), слайд №1902 edited (1), слайд №2002 edited (1), слайд №2102 edited (1), слайд №2202 edited (1), слайд №2302 edited (1), слайд №2402 edited (1), слайд №2502 edited (1), слайд №2602 edited (1), слайд №2702 edited (1), слайд №2802 edited (1), слайд №2902 edited (1), слайд №3002 edited (1), слайд №3102 edited (1), слайд №3202 edited (1), слайд №3302 edited (1), слайд №3402 edited (1), слайд №3502 edited (1), слайд №3602 edited (1), слайд №3702 edited (1), слайд №3802 edited (1), слайд №3902 edited (1), слайд №4002 edited (1), слайд №4102 edited (1), слайд №4202 edited (1), слайд №4302 edited (1), слайд №4402 edited (1), слайд №45

Содержание

Вы можете ознакомиться и скачать презентацию на тему 02 edited (1). Доклад-сообщение содержит 45 слайдов. Презентации для любого класса можно скачать бесплатно. Если материал и наш сайт презентаций Mypresentation Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте в закладки в своем браузере.

Слайды и текст этой презентации


Слайд 1





Обзор инструментов обработки Big Data
Описание слайда:
Обзор инструментов обработки Big Data

Слайд 2





Жизненный цикл данных
1. Собрать данные;
2. Преобразовать данные в формат, подходящий для их хранения;
3. Произвести очистку данных;
4. Проанализировать данные;
5. Использовать результаты анализа;
6. Хранить данные;
7. Уничтожить данные;
8. Вновь начать с шага 1.
Описание слайда:
Жизненный цикл данных 1. Собрать данные; 2. Преобразовать данные в формат, подходящий для их хранения; 3. Произвести очистку данных; 4. Проанализировать данные; 5. Использовать результаты анализа; 6. Хранить данные; 7. Уничтожить данные; 8. Вновь начать с шага 1.

Слайд 3





Google Big Table
Постоянная задержка менее 10 мс.
Репликация обеспечивает более высокую доступность, долговечность и отказоустойчивость перед лицом зональных сбоев.
Идеально подходит для рекламных технологий, финансовых приложений и  интернета вещей.
Механизм хранения для приложений машинного обучения
Простая интеграция с инструментами больших данных с открытым исходным кодом
Описание слайда:
Google Big Table Постоянная задержка менее 10 мс. Репликация обеспечивает более высокую доступность, долговечность и отказоустойчивость перед лицом зональных сбоев. Идеально подходит для рекламных технологий, финансовых приложений и интернета вещей. Механизм хранения для приложений машинного обучения Простая интеграция с инструментами больших данных с открытым исходным кодом

Слайд 4





Hadoop
Платформа программного обеспечения с открытым исходным кодом, поддерживающая распределенные приложения с интенсивным использованием данных, лицензированная по лицензии Apache v2 
Высокая масштабируемость и доступность; Может использовать обычное (дешевое!) оборудование с небольшим резервированием; 
Отказоустойчивость; 
Перемещает вычисления, а не данные;
Описание слайда:
Hadoop Платформа программного обеспечения с открытым исходным кодом, поддерживающая распределенные приложения с интенсивным использованием данных, лицензированная по лицензии Apache v2 Высокая масштабируемость и доступность; Может использовать обычное (дешевое!) оборудование с небольшим резервированием; Отказоустойчивость; Перемещает вычисления, а не данные;

Слайд 5





ElasticSearch
Гибкий и мощный открытый распределенный поисковый и аналитический движок в реальном времени для облака. 
Возможности: 
Работа с данными в реальном времени, аналитика в реальном времени, 
распределенность, высокая доступность, многопользовательский режим, 
полнотекстовый поиск, ориентированный на документы, управление конфликтами, схемонезависимый, REST API, персистентность для каждой операции, лицензия с открытым исходным кодом apache 2, сборка поверх Apache Lucene. 
Недостатки: 
Жертвует способностью обрабатывать данные, чтобы получить максимальную производительность для группировки и фильтрации задач.
Описание слайда:
ElasticSearch Гибкий и мощный открытый распределенный поисковый и аналитический движок в реальном времени для облака. Возможности: Работа с данными в реальном времени, аналитика в реальном времени, распределенность, высокая доступность, многопользовательский режим, полнотекстовый поиск, ориентированный на документы, управление конфликтами, схемонезависимый, REST API, персистентность для каждой операции, лицензия с открытым исходным кодом apache 2, сборка поверх Apache Lucene. Недостатки: Жертвует способностью обрабатывать данные, чтобы получить максимальную производительность для группировки и фильтрации задач.

Слайд 6





Cassandra
O (1) поиск узла;
Хранилище с подходом Ключ – Значение; 
Хранилище данных на основе столбцов; 
Высоко распределенная и децентрализованная (нет главного узла); 
Эластичность; 
Отказоустойчивая - репликации; 
Разреженное хранение; 
Каждый столбец имеет значение и временную метку, актуальными считаются самые свежие данные.
Описание слайда:
Cassandra O (1) поиск узла; Хранилище с подходом Ключ – Значение; Хранилище данных на основе столбцов; Высоко распределенная и децентрализованная (нет главного узла); Эластичность; Отказоустойчивая - репликации; Разреженное хранение; Каждый столбец имеет значение и временную метку, актуальными считаются самые свежие данные.

Слайд 7





Cassandra
7
Описание слайда:
Cassandra 7

Слайд 8





Cassandra
Дробление:
Как данные распределяются по узлам;
Репликация:
Как данные дублируются на узлах;
Членство в кластере
Как узлы добавляются и удаляются из кластера;
Описание слайда:
Cassandra Дробление: Как данные распределяются по узлам; Репликация: Как данные дублируются на узлах; Членство в кластере Как узлы добавляются и удаляются из кластера;

Слайд 9





Cassandra
Узлы логически структурированы в кольцевой топологии.
Хешированное значение ключа, связанного с разделом данных, используется для назначения его узлу в кольце.
Хеширование округляется после определенного значения для поддержки структуры кольца.
Слабо загруженные узлы перемещаются, чтобы облегчить нагрузку на сильно загруженные узлы.
Описание слайда:
Cassandra Узлы логически структурированы в кольцевой топологии. Хешированное значение ключа, связанного с разделом данных, используется для назначения его узлу в кольце. Хеширование округляется после определенного значения для поддержки структуры кольца. Слабо загруженные узлы перемещаются, чтобы облегчить нагрузку на сильно загруженные узлы.

Слайд 10





Cassandra
Каждый элемент данных реплицируется в N (фактор репликации) узлах.

Различные политики репликации
Rack Unaware - реплицируйте данные на N-1 последовательных узлах после своего координатора
Rack Aware - использует «Zookeeper» для выбора лидера, который сообщает узлам диапазон, для которого они являются репликами
Datacenter Aware - аналогично Rack Aware, но лидер выбирается на уровне Datacenter, а не на уровне Rack.
Описание слайда:
Cassandra Каждый элемент данных реплицируется в N (фактор репликации) узлах. Различные политики репликации Rack Unaware - реплицируйте данные на N-1 последовательных узлах после своего координатора Rack Aware - использует «Zookeeper» для выбора лидера, который сообщает узлам диапазон, для которого они являются репликами Datacenter Aware - аналогично Rack Aware, но лидер выбирается на уровне Datacenter, а не на уровне Rack.

Слайд 11





Cassandra
<number>
Описание слайда:
Cassandra <number>

Слайд 12





Cassandra
<number>
Описание слайда:
Cassandra <number>

Слайд 13





Cassandra: использование
Описание слайда:
Cassandra: использование

Слайд 14





Cassandra
<number>
Описание слайда:
Cassandra <number>

Слайд 15





MongoDB
Open-source;
Основана на документах – объектах в формате BSON (Binary JSON);
“High performance, high availability”;
Автоматическое масштабирование;
C-P по теореме CAP;
Eventually consistent
Данные в конце концов попадут на все узлы, но нет требования, чтобы все узлы всегда содержали самые свежие данные.
Описание слайда:
MongoDB Open-source; Основана на документах – объектах в формате BSON (Binary JSON); “High performance, high availability”; Автоматическое масштабирование; C-P по теореме CAP; Eventually consistent Данные в конце концов попадут на все узлы, но нет требования, чтобы все узлы всегда содержали самые свежие данные.

Слайд 16





MongoDB
Авто-Sharding (горизонтальное масштабирование);
Большие наборы данных могут быть разделены и распределены по нескольким шардам;
Быстрые обновления на месте;
Операции обновления являются атомарными для производительности без конкуренции;
Интегрированный Map-Reduce;
Описание слайда:
MongoDB Авто-Sharding (горизонтальное масштабирование); Большие наборы данных могут быть разделены и распределены по нескольким шардам; Быстрые обновления на месте; Операции обновления являются атомарными для производительности без конкуренции; Интегрированный Map-Reduce;

Слайд 17





MongoDB
Высокопроизводительные и масштабируемые приложения;
Большинство веб-приложений, в которых вы ранее использовали SQL;

Не используйте для:
Приложений, критически чувствительных к выполнению транзакций.
Описание слайда:
MongoDB Высокопроизводительные и масштабируемые приложения; Большинство веб-приложений, в которых вы ранее использовали SQL; Не используйте для: Приложений, критически чувствительных к выполнению транзакций.

Слайд 18





MongoDB
<number>
Описание слайда:
MongoDB <number>

Слайд 19





CouchDB
CouchDB - это документно-ориентированная СУБД, не реляционная: без схемы базы данных; 
Модель ключ-значение; 
Распределенная и отказоустойчивая; 
Данные моделируются как автономные документы: документ представлен структурой JSON с атрибутами любого типа. 
Запросы выполняются с помощью JavaScript.
Очень похожа на ElasticSearch, но с более широким набором запросов, и медленнее.
Описание слайда:
CouchDB CouchDB - это документно-ориентированная СУБД, не реляционная: без схемы базы данных; Модель ключ-значение; Распределенная и отказоустойчивая; Данные моделируются как автономные документы: документ представлен структурой JSON с атрибутами любого типа. Запросы выполняются с помощью JavaScript. Очень похожа на ElasticSearch, но с более широким набором запросов, и медленнее.

Слайд 20





CouchDB
Различные типы данных поддерживаются как дополнительные документы (видео, аудио, изображения и т. Д.)
Связь с приложениями и пользователями осуществляется через RESTful сервисы :
«Передача репрезентативного состояния» - программная модель клиент-серверной архитектуры, используемая для распределенных систем
Протокол связи HTTP:
методы HTTP используются явно;
Stateless
Выставляет структуру через URI
Данные передаются в формате XML или JSON (для CouchDB).
Описание слайда:
CouchDB Различные типы данных поддерживаются как дополнительные документы (видео, аудио, изображения и т. Д.) Связь с приложениями и пользователями осуществляется через RESTful сервисы : «Передача репрезентативного состояния» - программная модель клиент-серверной архитектуры, используемая для распределенных систем Протокол связи HTTP: методы HTTP используются явно; Stateless Выставляет структуру через URI Данные передаются в формате XML или JSON (для CouchDB).

Слайд 21





CouchDB
Протокол:
GET извлекает ресурс, на который ссылается URI.
PUT создает ресурс по указанному URI.
POST отправляет сообщение (вместе с некоторыми данными) существующему
ресурс.
DELETE удаляет ресурс.
Очень удобно в веб-среде: нет необходимости использовать клиентскую библиотеку - Документы могут быть легко включены в веб-интерфейс.
Описание слайда:
CouchDB Протокол: GET извлекает ресурс, на который ссылается URI. PUT создает ресурс по указанному URI. POST отправляет сообщение (вместе с некоторыми данными) существующему ресурс. DELETE удаляет ресурс. Очень удобно в веб-среде: нет необходимости использовать клиентскую библиотеку - Документы могут быть легко включены в веб-интерфейс.

Слайд 22





CouchDB
Отправить запрос HTTP, получить ответ.
$ curl -X GET http://mycouch.org
{"couchdb":"Welcome","version":"1.0.1"}
Создать базу данных.
$ curl -X PUT http://mycouch.org/myDB
{"ok":true}
Создать документ – поместить в БД ресурс.
$ curl -X PUT http://mycouch.org/myDB/myDoc \
-d ’{"key": "value"}’
{"ok":true,"id":"myDoc","rev":"1-25eca"}
Получить документ по его URI:
$ curl -X GET http://mycouch.org/myDB/myDoc
{"_id":"myDoc","_rev":"1-25eca","key":"value"}
Описание слайда:
CouchDB Отправить запрос HTTP, получить ответ. $ curl -X GET http://mycouch.org {"couchdb":"Welcome","version":"1.0.1"} Создать базу данных. $ curl -X PUT http://mycouch.org/myDB {"ok":true} Создать документ – поместить в БД ресурс. $ curl -X PUT http://mycouch.org/myDB/myDoc \ -d ’{"key": "value"}’ {"ok":true,"id":"myDoc","rev":"1-25eca"} Получить документ по его URI: $ curl -X GET http://mycouch.org/myDB/myDoc {"_id":"myDoc","_rev":"1-25eca","key":"value"}

Слайд 23





Подводя итог:
Кассандра и CouchDB предлагают доступность. 
Hadoop и MongoDB предлагают согласованность. 
ElasticSearch следует примеру реляционных баз данных и предлагает и то, и другое по цене отказа в работе в случае разбиения кластера на части.
Описание слайда:
Подводя итог: Кассандра и CouchDB предлагают доступность. Hadoop и MongoDB предлагают согласованность. ElasticSearch следует примеру реляционных баз данных и предлагает и то, и другое по цене отказа в работе в случае разбиения кластера на части.

Слайд 24





Flume
Сбор, агрегация потоковых данных о событиях; 
Обычно используется для данных журналов событий; 
Значительные преимущества перед специальными решениями;
 Надежный, масштабируемый, управляемый, настраиваемый и высокопроизводительный; 
Декларативная, динамическая конфигурация; 
Контекстная маршрутизация; 
Многофункциональный; 
Полностью расширяемый;
Описание слайда:
Flume Сбор, агрегация потоковых данных о событиях; Обычно используется для данных журналов событий; Значительные преимущества перед специальными решениями; Надежный, масштабируемый, управляемый, настраиваемый и высокопроизводительный; Декларативная, динамическая конфигурация; Контекстная маршрутизация; Многофункциональный; Полностью расширяемый;

Слайд 25





Flume
Событие - это основная единица данных, транспортируемых Flume от пункта отправления до конечного пункта назначения. Событие - это полезная нагрузка в виде байтового массива, сопровождаемая необязательными заголовками.
Полезная нагрузка непрозрачна для Flume
Заголовки указываются как неупорядоченная коллекция пар строк (ключ-значение), причем ключи являются уникальными для всей коллекции.
Заголовки могут быть использованы для контекстной маршрутизации
Описание слайда:
Flume Событие - это основная единица данных, транспортируемых Flume от пункта отправления до конечного пункта назначения. Событие - это полезная нагрузка в виде байтового массива, сопровождаемая необязательными заголовками. Полезная нагрузка непрозрачна для Flume Заголовки указываются как неупорядоченная коллекция пар строк (ключ-значение), причем ключи являются уникальными для всей коллекции. Заголовки могут быть использованы для контекстной маршрутизации

Слайд 26





Flume
Сущность, которая генерирует события и отправляет их одному или нескольким агентам.
Примеры:
Flume log4j Appender
Пользовательский клиент, использующий Client SDK (org.apache.flume.api)

Отделяет Flume от системы, из которой поступают данные о событиях;
Требуется не всегда.
Описание слайда:
Flume Сущность, которая генерирует события и отправляет их одному или нескольким агентам. Примеры: Flume log4j Appender Пользовательский клиент, использующий Client SDK (org.apache.flume.api) Отделяет Flume от системы, из которой поступают данные о событиях; Требуется не всегда.

Слайд 27





Flume
Контейнер для размещения источников, каналов, приемников и других компонентов, которые позволяют переносить события из одного места в другое.

Фундаментальная часть потока Flume;
Обеспечивает поддержку конфигурации, управления жизненным циклом и мониторинга размещенных компонентов.
Описание слайда:
Flume Контейнер для размещения источников, каналов, приемников и других компонентов, которые позволяют переносить события из одного места в другое. Фундаментальная часть потока Flume; Обеспечивает поддержку конфигурации, управления жизненным циклом и мониторинга размещенных компонентов.

Слайд 28





Flume
Активный компонент, который получает события из специализированного местоположения или механизма и размещает его на одном или нескольких  каналах.

Различные типы источников:
Специализированные источники для интеграции с известными системами. Пример: системный журнал, Netcat
Автогенерация источников: Exec, SEQ
Источники IPC для связи между агентами: Avro
Требуется хотя бы один канал для работы.
Описание слайда:
Flume Активный компонент, который получает события из специализированного местоположения или механизма и размещает его на одном или нескольких каналах. Различные типы источников: Специализированные источники для интеграции с известными системами. Пример: системный журнал, Netcat Автогенерация источников: Exec, SEQ Источники IPC для связи между агентами: Avro Требуется хотя бы один канал для работы.

Слайд 29





Flume
Пассивный компонент, который буферизует входящие события до тех пор, пока они не будут взяты из канала приемниками.
Различные каналы предлагают разные уровни постоянства хранения:
Канал памяти: энергозависимый
Файловый канал: поддерживается реализацией WAL
Канал JDBC: поддерживается встроенной базой данных
Канал полностью транзакционный;
Обеспечивает слабые гарантии сохранения порядка;
Может работать с любым количеством источников и приемников.
Описание слайда:
Flume Пассивный компонент, который буферизует входящие события до тех пор, пока они не будут взяты из канала приемниками. Различные каналы предлагают разные уровни постоянства хранения: Канал памяти: энергозависимый Файловый канал: поддерживается реализацией WAL Канал JDBC: поддерживается встроенной базой данных Канал полностью транзакционный; Обеспечивает слабые гарантии сохранения порядка; Может работать с любым количеством источников и приемников.

Слайд 30





Flume
Активный компонент, который забирает события из канала и передает их в пункт назначения следующего перехода.
Различные типы приемников:
Терминальные приемники, которые вносят события в их конечный пункт назначения. Например: HDFS, Hbase
Авто-потребляющие приемники. Например: null sink.
Приемник IPC для связи между агентами: Avro
Требуется ровно один канал для работы.
Описание слайда:
Flume Активный компонент, который забирает события из канала и передает их в пункт назначения следующего перехода. Различные типы приемников: Терминальные приемники, которые вносят события в их конечный пункт назначения. Например: HDFS, Hbase Авто-потребляющие приемники. Например: null sink. Приемник IPC для связи между агентами: Avro Требуется ровно один канал для работы.

Слайд 31





Flume
<number>
Описание слайда:
Flume <number>

Слайд 32





Flume
<number>
Описание слайда:
Flume <number>

Слайд 33





Flume
<number>
Описание слайда:
Flume <number>

Слайд 34





Logstash
Logstash - это приложение, которое собирает файлы журналов с серверов приложений, анализирует их, форматирует и отправляет в Elastic Search. Elastic Search хранит и индексирует данные, которые предоставляет Kibana. Конечные пользователи получают доступ к веб-интерфейсу Kibana для просмотра данных.
Очень быстрое решение, но менее функциональное чем Flume, и ориентированное прежде всего на работу со стеком ELK.
Описание слайда:
Logstash Logstash - это приложение, которое собирает файлы журналов с серверов приложений, анализирует их, форматирует и отправляет в Elastic Search. Elastic Search хранит и индексирует данные, которые предоставляет Kibana. Конечные пользователи получают доступ к веб-интерфейсу Kibana для просмотра данных. Очень быстрое решение, но менее функциональное чем Flume, и ориентированное прежде всего на работу со стеком ELK.

Слайд 35





Kafka
Очень высокая производительность;
Эластически масштабируемая;
Низкие эксплуатационные расходы;
Надежная, высокодоступная;
Гарантирует:
Проверку целостности данных;
Доставку данных минимум один раз;
Доставку данных с сохранением порядка, в пределах раздела (partition).
Описание слайда:
Kafka Очень высокая производительность; Эластически масштабируемая; Низкие эксплуатационные расходы; Надежная, высокодоступная; Гарантирует: Проверку целостности данных; Доставку данных минимум один раз; Доставку данных с сохранением порядка, в пределах раздела (partition).

Слайд 36





OpenRefine
Открытый инструмент для очистки больших данных, предназначенный для очистки сырых данных.
 Удобный;
 Хорошее сообщество; 
Требуются некоторые знания о подходах к очистке данных.
Описание слайда:
OpenRefine Открытый инструмент для очистки больших данных, предназначенный для очистки сырых данных. Удобный; Хорошее сообщество; Требуются некоторые знания о подходах к очистке данных.

Слайд 37





DataCleaner
Удобный инструмент для очистки больших данных, предназначенный для очистки сырых данных.
 Закрытый исходный код, платный по подписке.
Описание слайда:
DataCleaner Удобный инструмент для очистки больших данных, предназначенный для очистки сырых данных. Закрытый исходный код, платный по подписке.

Слайд 38





Kibana
Веб-плагин для ElasticSearch, который позволяет осуществлять полную визуализацию данных кластера. 
Гибкая платформа для аналитики и визуализации. 
Сводные данные и графики потоковой передачи данных в реальном времени.
Интуитивно понятный интерфейс для различных пользователей.
Мгновенный обмен и встраивание панелей мониторинга.
Описание слайда:
Kibana Веб-плагин для ElasticSearch, который позволяет осуществлять полную визуализацию данных кластера. Гибкая платформа для аналитики и визуализации. Сводные данные и графики потоковой передачи данных в реальном времени. Интуитивно понятный интерфейс для различных пользователей. Мгновенный обмен и встраивание панелей мониторинга.

Слайд 39





Matplotlib
Matplotlib - это библиотека Python 2D для построения графиков, которая генерирует графики уровня публикаций в различных печатных форматах и интерактивных средах на разных платформах. 
Matplotlib может использоваться в скриптах Python, оболочках Python и IPython, записной книжке Jupyter, серверах веб-приложений и четырех наборах инструментов графического интерфейса пользователя.
Описание слайда:
Matplotlib Matplotlib - это библиотека Python 2D для построения графиков, которая генерирует графики уровня публикаций в различных печатных форматах и интерактивных средах на разных платформах. Matplotlib может использоваться в скриптах Python, оболочках Python и IPython, записной книжке Jupyter, серверах веб-приложений и четырех наборах инструментов графического интерфейса пользователя.

Слайд 40





Tableau
Tableau - это инструмент визуализации данных, в котором основное внимание уделяется бизнес-аналитике. Вы можете создавать карты, гистограммы, точечные диаграммы и многое другое без необходимости программирования. Недавно вышел веб-коннектор, который позволяет подключаться к базе данных или API, что дает возможность получать живые данные в визуализации.
Tableau Public бесплатен, остальные версии платные.
Описание слайда:
Tableau Tableau - это инструмент визуализации данных, в котором основное внимание уделяется бизнес-аналитике. Вы можете создавать карты, гистограммы, точечные диаграммы и многое другое без необходимости программирования. Недавно вышел веб-коннектор, который позволяет подключаться к базе данных или API, что дает возможность получать живые данные в визуализации. Tableau Public бесплатен, остальные версии платные.

Слайд 41





Python
Jupyter Notebooks;
Matplotlib;
Hadoop;
Spark;
PanDA.
NumPy, SciPy, Scikit-Learn, и т. д.
Описание слайда:
Python Jupyter Notebooks; Matplotlib; Hadoop; Spark; PanDA. NumPy, SciPy, Scikit-Learn, и т. д.

Слайд 42





R
R - это свободная программная среда для статистических вычислений и графики. R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. Д.) И графические методы и обладает широкими возможностями расширения. Язык S часто является средством выбора для исследования в области статистической методологии, а R предоставляет открытый исходный код для участия в этой деятельности.
Описание слайда:
R R - это свободная программная среда для статистических вычислений и графики. R предоставляет широкий спектр статистических (линейное и нелинейное моделирование, классические статистические тесты, анализ временных рядов, классификация, кластеризация и т. Д.) И графические методы и обладает широкими возможностями расширения. Язык S часто является средством выбора для исследования в области статистической методологии, а R предоставляет открытый исходный код для участия в этой деятельности.

Слайд 43





MLLib
Используется в Java, Scala, Python и R. 
Высококачественные алгоритмы, в 100 раз быстрее, чем MapReduce. 
Работает везде, где работает Spark, на Hadoop, Apache Mesos, Kubernetes, в автономном режиме или в облаке, с различными источниками данных.
Описание слайда:
MLLib Используется в Java, Scala, Python и R. Высококачественные алгоритмы, в 100 раз быстрее, чем MapReduce. Работает везде, где работает Spark, на Hadoop, Apache Mesos, Kubernetes, в автономном режиме или в облаке, с различными источниками данных.

Слайд 44





Заключение
При выборе технологий обратите пристальное внимание на сильные и слабые стороны конкретных реализаций, а также на характер ваших данных и компромиссы, на которые вы можете и не можете пойти.
Описание слайда:
Заключение При выборе технологий обратите пристальное внимание на сильные и слабые стороны конкретных реализаций, а также на характер ваших данных и компромиссы, на которые вы можете и не можете пойти.

Слайд 45





Спасибо за внимание!
mgubin@tpu.ru
Описание слайда:
Спасибо за внимание! mgubin@tpu.ru



Теги 02 edited (1)
Похожие презентации
Mypresentation.ru
Загрузить презентацию