29 августа 2019

4 минуты

Hadoop - примеры использования

В одной из вышедших ранее статей мы знакомились с инструментарием Hadoop и рассматривали процедуру развертывания кластера на базе хадуп. Сегодня мы рассмотрим сценарии использования Hadoop, иными словами зачем он нужен и в чем его польза.

узнай больше на курсе

DevOps-инженер с нуля

Стань DevOps-инженером с нуля и научись использовать инструменты и методы DevOps

Подробнее о курсе

Полный курс по сетевым технологиям

Полный курс по сетевым технологиям от Мерион Нетворкс - учим с нуля сетевых инженеров и DevOPS специалистов

Подробнее о курсе

Python программист с нуля

Стань разработчиком на одном из самых популярных языков программирования - Python

Подробнее о курсе

Вспомним, что же такое Hadoop?

Hadoop, если говорить простым языком это набор программных решений, позволяющих осуществлять работу с так называемыми "большими данными". Большие данные, в данном контексте это гигантские объемы данных (не обязательно имеющих структуру), которые наиболее эффективно обрабатываются горизонтально масштабируемыми программами. Такие программные решения позволяют разбивать большие объемы данных на части и использовать для работы с этими элементами множество отдельных аппаратных машин, выполняющих обработку данных параллельно. Собственно, одним из таких программных решений и является Hadoop.

Благодаря широкому набору элементов для конфигурирования, Hadoop имеет очень большую гибкость, то есть этот инструмент можно настроить под множество различных задач. Стоит, однако, отметить, что наибольшую эффективность при обработке данных Hadoop имеет в сочетании с другими программными решениями (как пример можно привести SAP HANA)

Разберем наиболее часто используемые сценарии работы Hadoop. Можно использовать эту технологию в качестве базы данных, хранилища данных, инструмента обработки и анализа данных.

В качестве хранилища данных Hadoop привлекает тем, что может хранить разнородные данные из множества источников, без ограничения на типы анализа. Конкретные сценарии использования в данном случае будут таковы:

Хранение больших объемов документов: Конкретный пример поликлиники. Медицинские данные населения вполне можно считать большими данными, поскольку они должны храниться долгое время и со временем эта информация пополняется. С учетом перехода системы здравоохранения на электронный документооборот, Hadoop будет являться очень эффективным решением.
Архивы журналов электронной почты: С учетом законодательства, хранение переписки по электронной почте с последующим анализом требует эффективных решений для реализации. И здесь опять-таки Hadoop является одним из лучших вариантов.
Справочные данные: В различных отраслях человеческой деятельности для изучения используется метод сбора данных и их анализа. Например, метеостанции собирают данные о погоде, затем отправляют их в единый центр, после чего данные анализируются и составляется полная картина для отдельного региона или для всей планеты. Hadoop, в данном случае, будет эффективен, если точек сбора данных достаточно много, и поступающие данные регулярны. Решение Hadoop позволяет довольно быстро собрать данные и длительное время хранить их на серверах для дальнейшего анализа.
Социальные сети: Размещение больших данных в хранилищах Hadoop позволяет осуществить к ним быстрый доступ идеальное решение для социальных сетей.
Непрерывный сбор данных в режиме реального времени: Информация, поступающая с датчиков, сенсоров, камер видеонаблюдения и т.п. имеет огромное значение для любого современного технически ориентированного предприятия. Хранилища Hadoop эффективны и для данного сценария использования.

Также Hadoop может использоваться чисто как база данных для сторонних программных решений. В этом случае сценарии использования могут быть такими:

Извлечение и адаптация данных из других систем: В данном случае, благодаря гибкости, Hadoop может отбирать необходимые данные и интегрировать их в свои базы, для дальнейшей обработки и анализа
База данных для больших объемов информации в реальном времени: Эта возможность имеет серьезное значение для социальных сетей, где важно сохранять различные выборки данных
Предоставление доступа к Hadoop другим системам: Hadoop может эффективно интегрироваться в качестве базы данных в другие программные решения.

В виде инструмента обработки и анализа данных Hadoop так же проявляет себя очень эффективно.

Анализ рисков предприятия: Благодаря собранным данным и параллельной обработке, программа позволяет быстро просчитать риски и выявить слабые места в деятельности организации
Оперативное обновление данных: Hadoop позволяет вносить дополнительную информацию в имеющиеся данные, что позволяет устранить проблемы с нехваткой нужной информации.
Быстрое выявление различий в больших объемах схожих данных: Здесь в качестве примера можно привести сравнение расшифровок генетического кода. Использование Hadoop в разы ускоряет этот процесс.

Таким образом, можно сказать, что на текущий момент дистрибутивы Hadoop пожалуй, самый эффективный набор инструментов для обработки больших данных. А благодаря непрерывной работе над улучшением инструментария, в ближайшее время вряд ли появится что-то более эффективное.

кейсы Hadoop

примеры использования хадуп

Получите бесплатные уроки на наших курсах

Все курсы

узнай больше на курсе

DevOps-инженер с нуля

Стань DevOps-инженером с нуля и научись использовать инструменты и методы DevOps

Подробнее о курсе

Полный курс по сетевым технологиям

Полный курс по сетевым технологиям от Мерион Нетворкс - учим с нуля сетевых инженеров и DevOPS специалистов

Подробнее о курсе

Python программист с нуля

Стань разработчиком на одном из самых популярных языков программирования - Python

Подробнее о курсе

Онлайн-курс по кибербезопасности

Полный курс по кибербезопасности от Мерион Нетворкс - учим с нуля специалистов по информационной безопасности. Пора стать безопасником!

Подробнее о курсе

Java-разработчик с нуля

Освойте backend-разработку и программирование на Java, фреймворки Spring и Maven, работу с базами данных и API

Подробнее о курсе

Этичный хакинг

Научись работать с Kali Linux, изучи самые распространенные уязвимости, разверни виртуальную лабораторию для пентестинга

Подробнее о курсе

Еще по теме:

DevOps

Полезно

10 AI промптов для DevOps инженеров, которые ускорят работу в 10 раз

10 крутых AI промптов для быстрого решения проблем Kubernetes, CI/CD, Terraform и мониторинга

DevOps

Теория

Что такое микросервисы?

Наверняка ты постоянно слышишь про микросервисы. Микросервисы то, микросервисы сё, переписали все на микросервисы, развернули микросервисы в контейнерах. А че это вообще такое? Ща все объясним.

DevOps

Полезно

Делаем домашнюю DevOps-лабораторию на ноутбуке без затрат

О том, как создать локальную DevOps-лабораторию с Docker, Kubernetes, Vagrant, Ansible и Terraform на обычном ноутбуке без затрат, смс, и прочего.

DevOps

Полезно

Git Flow: что это и как работает

Git Flow - это специальная система ветвления для Git. Она помогает команде лучше контролировать и добавлять различные версии проекта. В статье рассказываем, как ее использовать.

DevOps

How to

Как проверить логи в Docker?

Мы рассмотрим несколько простых способов, с помощью которых вы можете управлять и отслеживать логи для своих контейнеров.