По вашему запросу ничего не найдено :(
Убедитесь, что запрос написан правильно, или посмотрите другие наши статьи:
img
В данной статье будет проведена кластеризация заранее подготовленного корпуса текстов. Он получен в результате работы программы-краулера, собиравшего новостные статьи с сайта arstechnica.com, присваивая каждому собранному тексту тему, к которой он был приписан на сайте. В ходе работы будет проведена кластеризация собранных текстов и визуализированы ключевые слова и максимально близкие к ним по смыслу на основании алгоритма word2vec. Наработки, освещенные в данной работе, могут быть использованы в беспрерывном анализе сайтов по поступающим адресам с целью автоматизации поиска данных по каким-либо критериям. Теория Лемматизация – это процесс преобразования слова в его базовую форму, которая учитывает контекст (в отличие от стемминга (stemming), который находит основу слова, не учитывая контекст). Wordnet – это большая лексическая база данных английского языка для установления структурированных семантических отношений между словами. Библиотека предлагает возможности лемматизации. Word2vec — это инструмент для расчета векторных представлений слов, который реализует основные архитектуры — Continuous Bag of Words (CBOW) и Skip-gram. Суть в том, что на вход подается текст, а на выходе мы получаем набор векторов слов. Используется для нахождения связей между контекстами. CBOW и Skip-gram — нейросетевые архитектуры, которые описывают, как именно нейросеть «учится» на данных и «запоминает» представления слов. Принципы у обоих архитектур разные. Принцип работы CBOW — предсказывание слова при данном контексте, а skip-gram наоборот — предсказывается контекст при данном слове. Практическая часть Сначала нужно считать корпус из ранее подготовленного файла и вывести краткие сведения о нем, чтобы убедиться, что все верно: Убираем из текстов знаки препинания и слова, которые слишком часто применяются и часто не несут смысловой нагрузки (так называемые стоп-слова), а именно предлоги, артикли, частицы, часть местоимений и некоторые формы вспомогательных глаголов: После необходимо разбить корпус на две выборки: обучающую и тестовую. С помощью обучающей выборки предполагается обучить метод векторизации и кластеризатор, а с помощью тестовой – проверить результаты их работы. С помощью параметра test_size можно задать соотношение размеров выборок. Затем можно приступить к векторизации текстов выборок. Количество признаков установлено на 500 и после этого сделано усреднение длин векторов. Обучив векторизатор, можно посмотреть наиболее близкие по контексту слова. Эта функция будет использована далее для визуализации Wordcloud. Для визуализации результатов кластеризации нужно выделить 2 главных признака и вывести координаты точек, исходя из значений двух выделенных параметров. Наконец, можно приступить к визуализации облака слов. Оно строится на основании веса каждого слова в корпусе. А так как в качестве корпуса подается топ-100 слов, семантически близких к слову car, то данное облако полностью состоит из слов, близких к car по мнению word2vec. Заключение В заключение нужно отметить, что, хотя данная кластеризация прошла относительно успешно, что видно из приведенных метрик и общему виду кластеров (их можно легко отделить друг от друга, в общей своей массе каждый из них имеет крайне малое количество своих представителей на территории другого кластера), все же можно подобрать лучшие параметры. Также повышению качества будет способствовать увеличение размеров корпуса и ручная доработка корпуса стоп-слов и пунктуации, хотя стоит отметить, что они и в стандартном виде работают достаточно эффективно для столь небольшой обучающей выборки (5952 текста о 5 разных, иногда пересекающихся, темах).
img
Сейчас мы находимся в начале года – это лучшее время, чтобы оценить, что технологии готовят для нас в 2024 году. Цифровая трансформация не заканчивается – это непрерывный процесс, полный метаморфоз и сюрпризов. Одно можно сказать точно – 2023 год стал временем прорывных инноваций, которые продолжать менять наш мир во многих направлениях. Давайте разбираться вместе!  Тренд 1. Автоматизация станет повседневностью Согласно прогнозу International Data Corporation , к 2027 году расходы предприятий на решения в области GenAI достигнут $143 млрд по сравнению с $16 млрд в 2023 году, а крупнейшие компании мира направят на инициативы, связанные с ИИ, более 40% своих основных расходов на IT. В 2023 году генеративный искусственный интеллект ворвался в нашу жизнь и стал ее неотъемлемой частью. «Это что, нейросеть сгенерировала?» – раньше такой вопрос подразумевал иронию над запутанными текстами или несуразными картинками.  Сейчас мы видим, насколько мощным и полезным может быть ИИ, ведь им пользуются все – нейросети полезны и в работе, и в развлечениях, и даже в быту – попробуйте попросить ChatGPT составить вам меню на неделю! При правильном использовании это похоже на наличие умного личного помощника, который находится у вас под рукой 24 часа в сутки, 7 дней в неделю. Главным технологическим трендом 2024 года станет укрепление связей с AI – передав ему часть своих задач, у нас появится больше времени для творчества, учебы и общения. И компании будут делать все, что поможет усилить искусственный интеллект и укрепить эти связи. Тренд 2. Решение проблем, связанных с новыми возможностями Здорово, если бы распространение ИИ стало решением, а не самой проблемой. Но с уверенным прогрессом приходит и ответственность. К примеру, нужно постоянно иметь в виду этические последствия использования таких технологий – проблемы с авторским правом, нарушение конфиденциальности, да и просто повсеместный страх специалистов за свою работу.  Технологии AI несут риски и по части кибербезопасности для компаний, которые внедряют ИИ в свои бизнес-процессы.  По мнению аналитиков Gartner, обезопасить бизнес можно благодаря программе AI TRiSM, название которой расшифровывается как «Управление доверием, рисками и безопасностью». Она поможет заранее интегрировать заранее обеспечить надежность и защиту конфиденциальности данных при работе с ИИ. Вредоносные атаки на ИИ могут привести к потерям – финансовым, репутационным или связанным с интеллектуальной собственностью, личной информацией или конфиденциальными данными. Обнаружение и пресечение таких атак требуют новых методов, и разработки в сфере кибербезопасности в этой сфере станет одним из ключевых IT-трендов 2024 года. Тренд 3. Сплетение реального и цифрового AR, VR и метавселенные – технологии, которые как никогда сближают нашу реальность и цифровые области, в которых мы проводим время. Сейчас мы больше, чем когда-либо вообще, существуем как цифровые аватары. Мы работаем на удаленке благодаря мессенджерам и видеозвонкам, отдыхаем в онлайн-играх и используем социальные сети для создания виртуальных пространств, где можно делиться моментами из нашей «реальной» жизни. Так или иначе каждый из нас создаёт цифровых личностей, которые становятся нашими виртуальными «я». В разных отраслях мы видим, как эта концепция проявляется в форме цифрового двойника – виртуальной формы объекта, системы или даже процесса в реальном мире. Цифровой двойник не обязательно должен быть человеком, как персонаж в игре – это может быть любой компонент: как простой, так и сложный. Главное, что цифровой двойник создается на основе данных, полученных от его настоящего аналога – человека, группы людей или даже целого города. Кстати, цифровых двойников успешно применяют для моделирования процессов и прогнозирования. Они помогают проверить совместимость активов и визуализировать конечный вид продукта. Рынок программного обеспечения для цифровых двойников вырос на 71% с 2020 по 2022 год. Основными заказчиками выступают производства: 29% компаний по всему миру уже используют технологию в ключевых процессах, 63% планируют это сделать в будущем. В России тоже появляются перспективные проекты в этой сфере – например, цифровой двойник месторождения «Роснефти» в Башкирии способен на 60% увеличить число дистанционно управляемых объектов, на 5% повысить энергоэффективность процесса добычи, а еще сократить расходы на логистику. В 2024 году мы продолжим видеть все меньше и меньше различий между реальным миром и виртуальным миром. Это означает, что цифровое становится все более реалистичным, а реальное становится таким же гибким и податливым, как и цифровое. Тренд 4. Технологии устойчивого развития Устойчивые технологии будут продолжать занимать центральное место в 2024 году, поскольку страны и корпорации продолжают работать над выполнением обязательств по нулевым выбросам. В то же время люди будут все активнее использовать технологии, чтобы минимизировать свое личное воздействие на окружающую среду. Движение устойчивых технологий приносит пользу как для прибыли, так и для планеты. Gartner, которая недавно определила устойчивые технологии в качестве одной из своих главных стратегических технологий на 2024 год , прогнозирует, что четверть вознаграждения ИТ-директоров вскоре будет связана с их вкладом в устойчивые технологии.  Внедрение тенденций устойчивого развития в 2024 году – это не просто вопрос соблюдения трендов или каких-то требований, а важнейшее условие для сохранения конкурентоспособности. Компании, которые применяют правила устойчивого развития, могут повысить репутацию своего бренда и освоить новые рынки.  По мере ускорения глобальной гонки за внедрение стандартов в области устойчивого развития все компании, которые их применяют, скорее всего, получат значительные долгосрочные выгоды и станут лидерами в своей области. Устойчивые технологии включают в себя более экологически чистые способы ведения бизнеса – появление электромобилей, велосипедов и общественного транспорта, доля которых на рынке продолжит увеличиваться в 2024 году. Они также включают в себя новые решения экологических проблем, такие как улавливание углерода и хранения , а также технологии «зеленой» и возобновляемой энергии. Тренд 5. Цифровой иммунитет Исследования показывают, что каждый второй бизнес стал жертвой успешной кибератаки за последние три года. Более того – ожидается , что к концу 2024 года стоимость этих атак для промышленности вырастет до более чем 10 триллионов долларов. Решения, разработанные для усиления защиты от растущих угроз, занимают первое место в списке необходимых каждой организации. Киберустойчивость выходит за рамки кибербезопасности, ведь она также включает в себя технологии, которые можно применить для обеспечения и восстановления непрерывности работы инфраструктуры в случае атаки. Это подразумевает и возможность удаленной работы для того, чтобы предприятия продолжали функционировать даже тогда, когда сотрудники не могут добраться до центральных офисов. Такое технологическое решение очень важное, хоть и традиционно не считается элементом кибербезопасности. Киберугрозы становятся все более изощренными, а конкуренция за вывод на рынок новых решений, использующих передовые технологии вроде ИИ, усиливается.  Это гарантирует, что цифровой иммунитет станет все более заметной тенденцией в течение 2024 года в B2B и B2C-технологиях. К 2025 году организации, инвестирующие в киберустойчивость, сократят время простоя производства на 80% и поэтому увеличат доходы, считают аналитики Gartner. Заключение IT-сфера так или иначе влияет на все сферы нашего быта. Поэтому так важно знать глобальные тренды рынка – это даст понимание о том, что происходит вокруг, а для IT-специалистов тренды могут стать подсказуой к тому, кем можно пойти работать или на кого учиться.  AI, сфера кибербезопасности, программирование сейчас будут очень востребованы. Знание трендов поможет найти свою нишу, сфокусировать свои знания на конкретной сфере, и предложить своему работодателю решение, которое поможет бизнесу расти, а вас сделать ценным работником. 
img
ICMP, который расшифровывается как Internet Control Message Protocol это протокол третьего уровня модели OSI, который используется для диагностики проблем со связностью в сети. Говоря простым языком, ICMP помогает определить может ли достичь пакет адреса назначения в установленные временные рамки. Обычно, ICMP “юзают" маршрутизаторы и устройства третьего уровня. Для чего используется ICMP? Основная цель ICMP это отчетность об ошибках. При соединении двух девайсов в сети, если часть данных не доходит до адреса назначения, теряется или превышает допустимые таймауты - ICMP генерирует ошибки. Второе, и, пожалуй, одно из самых популярных применений ICMP это утилиты ping и traceroute. Термин “пинговать" как - раз связан с протоколом ICMP и “пинговать" хост - означает отправлять ICMP пакеты с целью понять, отвечает ли на них целевое устройство. Про трассировку Так и с “трассировкой". Когда говорят “сделайте трассировку маршрута" это означает, что мы хотим увидеть полный маршрут между хостом, на котором выполняется трассировка до хоста назначения. Трассировка покажет каждый из маршрутизаторов на пути до цели и время обработки и прохождения каждого из участков маршрута. Кстати, такой маршрут называется “хопом". Часто говорят: если от узла отправления до узла назначения на пути встретиться 7 маршрутизаторов, то говорят на пути будет 7 хопов. А если на 6 маршрутизаторе пакет обрабатывается дольше обычного, то в среде инженеров говорят “на 6 хопе повышенная задержка". Это один из базовых инструментов того, как можно понять, какой из сетевых узлов на маршруте пакет “сбоит". Именно в этом нам помогает протокол ICMP. Про пинг Теперь про ping. Можно сказать, это самый базовый инструмент инженера, который позволяет понять “"А жив ли хост?" Помимо прочего, пинг поможет понять как долго пакет доходит до адреса назначения и, соответственно, поможет измерить задержку. Работает ping предельно просто: Источник отправляет запрос вида ICMP echo request. Это выглядит как вопрос “бро, ты живой?" Получатель отправляет ответ источнику ICMP echo reply. Это звучит как ответ вида “да, бро, я жив, спасибо!" Время с момента отправки вопроса до получения ответа суммируется и считается за время пинга Темная сторона ICMP На самом деле, с помощью ICMP можно провести атаки на сеть. Эти атаки связаны с отказом устройства в обслуживании (denial-of-service, DoS). Например “флуд - атака", суть которой заключается в отправке огромного количества пинг (ICMP) - запросов на хоста назначения с разных источников. В итоге устройство отвечает кучей пакетов на разные адреса и перегружает собственные мощности и сетевой адаптер. Так же, раньше была популярна атака Ping of Death. Если кратко, ее суть заключалась в следующем: злоумышленник намеренно отправляет пакет больше максимального размера. Такой пакет фрагментируется на сети на несколько частей, прилетает в буфер устройства и попадает в очередь на сборка пакета “воедино". Переполнение этой очереди приводило к подвисанию хоста и полному отказу в работе. Что же, теперь вы знаете, что такое ICMP, почему и как он используется в утилитах ping и трассировке, а так же, какие виды атак можно выполнить с помощью ICMP. Keep calm and Merion!
ВЕСЕННИЕ СКИДКИ
40%
50%
60%
До конца акции: 30 дней 24 : 59 : 59