ѕопробуйте наш навык у јлисы 🚀јлиса это умеет

ћерион Ќетворкс

4 минуты чтени€

¬ одной из вышедших ранее статей мы знакомились с инструментарием Hadoop и рассматривали процедуру развертывани€ кластера на базе хадуп. —егодн€ мы рассмотрим сценарии использовани€ Hadoop, иными словами зачем он нужен и в чем его польза.

¬спомним, что же такое Hadoop?

Hadoop, если говорить простым €зыком это набор программных решений, позвол€ющих осуществл€ть работу с так называемыми "большими данными". Ѕольшие данные, в данном контексте это гигантские объемы данных (не об€зательно имеющих структуру), которые наиболее эффективно обрабатываютс€ горизонтально масштабируемыми программами. “акие программные решени€ позвол€ют разбивать большие объемы данных на части и использовать дл€ работы с этими элементами множество отдельных аппаратных машин, выполн€ющих обработку данных параллельно. —обственно, одним из таких программных решений и €вл€етс€ Hadoop.

Ѕлагодар€ широкому набору элементов дл€ конфигурировани€, Hadoop имеет очень большую гибкость, то есть этот инструмент можно настроить под множество различных задач. —тоит, однако, отметить, что наибольшую эффективность при обработке данных Hadoop имеет в сочетании с другими программными решени€ми (как пример можно привести SAP HANA)

SAP HANA и Hadoop

–азберем наиболее часто используемые сценарии работы Hadoop. ћожно использовать эту технологию в качестве базы данных, хранилища данных, инструмента обработки и анализа данных.

¬ качестве хранилища данных Hadoop привлекает тем, что может хранить разнородные данные из множества источников, без ограничени€ на типы анализа.  онкретные сценарии использовани€ в данном случае будут таковы:

  • ’ранение больших объемов документов:  онкретный пример поликлиники. ћедицинские данные населени€ вполне можно считать большими данными, поскольку они должны хранитьс€ долгое врем€ и со временем эта информаци€ пополн€етс€. — учетом перехода системы здравоохранени€ на электронный документооборот, Hadoop будет €вл€тьс€ очень эффективным решением.
  • јрхивы журналов электронной почты: — учетом законодательства, хранение переписки по электронной почте с последующим анализом требует эффективных решений дл€ реализации. » здесь оп€ть-таки Hadoop €вл€етс€ одним из лучших вариантов.
  • —правочные данные: ¬ различных отрасл€х человеческой де€тельности дл€ изучени€ используетс€ метод сбора данных и их анализа. Ќапример, метеостанции собирают данные о погоде, затем отправл€ют их в единый центр, после чего данные анализируютс€ и составл€етс€ полна€ картина дл€ отдельного региона или дл€ всей планеты. Hadoop, в данном случае, будет эффективен, если точек сбора данных достаточно много, и поступающие данные регул€рны. –ешение Hadoop позвол€ет довольно быстро собрать данные и длительное врем€ хранить их на серверах дл€ дальнейшего анализа.
  • —оциальные сети: –азмещение больших данных в хранилищах Hadoop позвол€ет осуществить к ним быстрый доступ идеальное решение дл€ социальных сетей.
  • Ќепрерывный сбор данных в режиме реального времени: »нформаци€, поступающа€ с датчиков, сенсоров, камер видеонаблюдени€ и т.п. имеет огромное значение дл€ любого современного технически ориентированного предпри€ти€. ’ранилища Hadoop эффективны и дл€ данного сценари€ использовани€.

“акже Hadoop может использоватьс€ чисто как база данных дл€ сторонних программных решений. ¬ этом случае сценарии использовани€ могут быть такими:

  • »звлечение и адаптаци€ данных из других систем: ¬ данном случае, благодар€ гибкости, Hadoop может отбирать необходимые данные и интегрировать их в свои базы, дл€ дальнейшей обработки и анализа
  • Ѕаза данных дл€ больших объемов информации в реальном времени: Ёта возможность имеет серьезное значение дл€ социальных сетей, где важно сохран€ть различные выборки данных
  • ѕредоставление доступа к Hadoop другим системам: Hadoop может эффективно интегрироватьс€ в качестве базы данных в другие программные решени€.

¬ виде инструмента обработки и анализа данных Hadoop так же про€вл€ет себ€ очень эффективно.

  • јнализ рисков предпри€ти€: Ѕлагодар€ собранным данным и параллельной обработке, программа позвол€ет быстро просчитать риски и вы€вить слабые места в де€тельности организации
  • ќперативное обновление данных: Hadoop позвол€ет вносить дополнительную информацию в имеющиес€ данные, что позвол€ет устранить проблемы с нехваткой нужной информации.
  • Ѕыстрое вы€вление различий в больших объемах схожих данных: «десь в качестве примера можно привести сравнение расшифровок генетического кода. »спользование Hadoop в разы ускор€ет этот процесс.

“аким образом, можно сказать, что на текущий момент дистрибутивы Hadoop пожалуй, самый эффективный набор инструментов дл€ обработки больших данных. ј благодар€ непрерывной работе над улучшением инструментари€, в ближайшее врем€ вр€д ли по€витс€ что-то более эффективное.


ѕолезна ли ¬ам эта стать€?


Ёти статьи могут быть вам интересны: