По вашему запросу ничего не найдено :(
Убедитесь, что запрос написан правильно, или посмотрите другие наши статьи:
img
В данной статье будет проведена кластеризация заранее подготовленного корпуса текстов. Он получен в результате работы программы-краулера, собиравшего новостные статьи с сайта arstechnica.com, присваивая каждому собранному тексту тему, к которой он был приписан на сайте. В ходе работы будет проведена кластеризация собранных текстов и визуализированы ключевые слова и максимально близкие к ним по смыслу на основании алгоритма word2vec. Наработки, освещенные в данной работе, могут быть использованы в беспрерывном анализе сайтов по поступающим адресам с целью автоматизации поиска данных по каким-либо критериям. Теория Лемматизация – это процесс преобразования слова в его базовую форму, которая учитывает контекст (в отличие от стемминга (stemming), который находит основу слова, не учитывая контекст). Wordnet – это большая лексическая база данных английского языка для установления структурированных семантических отношений между словами. Библиотека предлагает возможности лемматизации. Word2vec — это инструмент для расчета векторных представлений слов, который реализует основные архитектуры — Continuous Bag of Words (CBOW) и Skip-gram. Суть в том, что на вход подается текст, а на выходе мы получаем набор векторов слов. Используется для нахождения связей между контекстами. CBOW и Skip-gram — нейросетевые архитектуры, которые описывают, как именно нейросеть «учится» на данных и «запоминает» представления слов. Принципы у обоих архитектур разные. Принцип работы CBOW — предсказывание слова при данном контексте, а skip-gram наоборот — предсказывается контекст при данном слове. Практическая часть Сначала нужно считать корпус из ранее подготовленного файла и вывести краткие сведения о нем, чтобы убедиться, что все верно: Убираем из текстов знаки препинания и слова, которые слишком часто применяются и часто не несут смысловой нагрузки (так называемые стоп-слова), а именно предлоги, артикли, частицы, часть местоимений и некоторые формы вспомогательных глаголов: После необходимо разбить корпус на две выборки: обучающую и тестовую. С помощью обучающей выборки предполагается обучить метод векторизации и кластеризатор, а с помощью тестовой – проверить результаты их работы. С помощью параметра test_size можно задать соотношение размеров выборок. Затем можно приступить к векторизации текстов выборок. Количество признаков установлено на 500 и после этого сделано усреднение длин векторов. Обучив векторизатор, можно посмотреть наиболее близкие по контексту слова. Эта функция будет использована далее для визуализации Wordcloud. Для визуализации результатов кластеризации нужно выделить 2 главных признака и вывести координаты точек, исходя из значений двух выделенных параметров. Наконец, можно приступить к визуализации облака слов. Оно строится на основании веса каждого слова в корпусе. А так как в качестве корпуса подается топ-100 слов, семантически близких к слову car, то данное облако полностью состоит из слов, близких к car по мнению word2vec. Заключение В заключение нужно отметить, что, хотя данная кластеризация прошла относительно успешно, что видно из приведенных метрик и общему виду кластеров (их можно легко отделить друг от друга, в общей своей массе каждый из них имеет крайне малое количество своих представителей на территории другого кластера), все же можно подобрать лучшие параметры. Также повышению качества будет способствовать увеличение размеров корпуса и ручная доработка корпуса стоп-слов и пунктуации, хотя стоит отметить, что они и в стандартном виде работают достаточно эффективно для столь небольшой обучающей выборки (5952 текста о 5 разных, иногда пересекающихся, темах).
img
Всякий раз, когда мы отправляем данные из одного узла в другой в компьютерной сети, данные инкапсулируются на стороне отправителя, а деинкапсулируются на стороне получателя. В этой статье мы узнаем, что такое инкапсуляция. Мы также подробно изучим процесс инкапсуляции и деинкапсуляции в моделях OSI и TCP/IP. Инкапсуляция данных Инкапсуляция данных - это процесс, в котором некоторая дополнительная информация добавляется к элементу данных, чтобы добавить к нему некоторые функции. В нашей сети мы используем модель OSI или TCP/IP, и в этих моделях передача данных происходит через различные уровни. Инкапсуляция данных добавляет к данным информацию протокола, чтобы передача данных могла происходить надлежащим образом. Эта информация может быть добавлена в заголовок (header) или в конец (footer или trailer) данных. Данные инкапсулируются на стороне отправителя, начиная с уровня приложения и заканчивая физическим уровнем. Каждый уровень берет инкапсулированные данные из предыдущего слоя и добавляет некоторую дополнительную информацию для их инкапсуляции и некоторые другие функции с данными. Эти функции могут включать в себя последовательность данных, контроль и обнаружение ошибок, управление потоком, контроль перегрузки, информацию о маршрутизации и так далее. Деинкапсуляция данных Деинкапсуляция данных - это процесс, обратный инкапсуляции данных. Инкапсулированная информация удаляется из полученных данных для получения исходных данных. Этот процесс происходит на стороне получателя. Данные деинкапсулируются на том же уровне на стороне получателя, что и инкапсулированный уровень на стороне отправителя. Добавленная информация заголовка и футера удаляется из данных в этом процессе. На рисунке показано, как футер и хедер добавляются и удаляются из данных в процессе инкапсуляции и деинкапсуляции соответственно. Данные инкапсулируются на каждом уровне на стороне отправителя, а также деинкапсулируются на том же уровне на стороне получателя модели OSI или TCP/IP. Процесс инкапсуляции (на стороне отправителя) Шаг 1. Уровень приложения, представления и сеанса в модели OSI принимает пользовательские данные в виде потоков данных, инкапсулирует их и пересылает данные на транспортный уровень. Тут не обязательно добавится к данным какой-либо хедер или футер - это зависит от приложения. Шаг 2. Транспортный уровень берет поток данных с верхних уровней и разделяет его на несколько частей. Транспортный уровень инкапсулирует данные, добавляя соответствующий заголовок к каждой части. Эти фрагменты данных теперь называются сегментами данных. Заголовок содержит информацию о последовательности, так что сегменты данных могут быть повторно собраны на стороне получателя. Шаг 3. Сетевой уровень берет сегменты данных с транспортного уровня и инкапсулирует их, добавляя дополнительный заголовок к сегменту данных. Этот заголовок данных содержит всю информацию о маршрутизации для правильной доставки данных. Здесь инкапсулированные данные называются пакетом данных или дейтаграммой. Шаг 4: Канальный уровень берет пакет данных или дейтаграмму с сетевого уровня и инкапсулирует ее, добавляя дополнительный заголовок и нижний футер. Заголовок содержит всю информацию о коммутации для правильной доставки данных соответствующим аппаратным компонентам, а футер содержит всю информацию, связанную с обнаружением ошибок и контролем. Здесь инкапсулированные данные называются фреймом данных. Шаг 5: Физический уровень берет кадры данных с уровня канала передачи данных и инкапсулирует их, преобразовывая их в соответствующие сигналы данных или биты, соответствующие физической среде. Процесс деинкапсуляции (на стороне получателя) Шаг 1: Физический уровень принимает инкапсулированные сигналы данных или биты от отправителя и деинкапсулирует их в форме кадра данных, который будет перенаправлен на верхний уровень, то есть на канальный уровень. Шаг 2: Канальный уровень берет кадры данных с физического уровня. Он деинкапсулирует фреймы данных и проверяет заголовок фрейма, скоммутирован ли фрейм данных на правильное оборудование или нет. Если кадр пришел в неправильное место назначения, он отбрасывается, иначе он проверяет информацию в футере. Если есть какая-либо ошибка в данных, запрашивается повторная передача данных, если нет, то они деинкапсулируются, и пакет данных пересылается на верхний уровень. Шаг 3. Сетевой уровень принимает пакет данных или дейтаграмму из канального уровня. Он деинкапсулирует пакеты данных и проверяет заголовок пакета, направлен ли пакет в правильное место назначения или нет. Если пакет направляется в неправильный пункт назначения, пакет отбрасывается, если все ок, то он деинкапсулируется, и сегмент данных пересылается на верхний уровень. Шаг 4: Транспортный уровень берет сегменты данных с сетевого уровня и деинкапсулирует их. Сначала он проверяет заголовок сегмента, а затем повторно собирает сегменты данных для формирования потоков данных, а затем эти потоки данных пересылаются на верхние уровни. Шаг 5: Уровень приложения, представления и сеанса в модели OSI берет инкапсулированные данные с транспортного уровня, деинкапсулирует их, и данные, относящиеся к конкретному приложению, пересылаются в приложения.
img
Маршрутизаторы от производителя Mikrotik приобретают все большую популярность благодаря привлекательной цене и богатому функционалу. Пожалуй, в SOHO сегмента Mikrotik является лидером. Сегодня хотим рассказать о полезных опциях настройки, которые помогут укрепить устойчивость к внешним атакам и обеспечить стабильную работу для вашего офисного Mikrotik. Защита Mikrotik 1. Смена логина и пароля администратора Начнем с первичной защиты нашего маршрутизатора – созданию стойкого к взломам логина и пароля администратора. По умолчанию, в Mikrotik используется логин admin и пустой пароль. Давайте исправим это: подключаемся через Winbox к нашему маршрутизатору и переходим в раздел настройки System → Users. Видим пользователя admin, который настроен по умолчанию: Добавим нового пользователя, который будет обладать более строгими к взлому реквизитами (логин/пароль). Для этого, нажмите на значок «+» в левом верхнем углу: Обратите внимание, в поле Group необходимо выбрать full, чтобы предоставить администраторские привилегии для пользователя. После произведенных настроек удаляем пользователя admin и отныне используем только нового пользователя для подключения к интерфейса администрирования. 2. Сервисные порты В маршрутизаторе Микротик «зашиты» некоторые службы, порты которых доступны для доступа из публичной сети интернет. Потенциально, это уязвимость для Вашего сетевого контура. Поэтому, мы предлагаем перейти в раздел настройки IP → Services: Если вы используете доступ к Mikrotik только по Winbox, то мы предлагаем Вам отключить все сервисы, за исключением winbox и ssh (на всякий случай оставить ssh), а именно: api api-ssl ftp www www-ssl Для отключения нажмите красный значок «х». Так как мы оставили SSH доступ к серверу, давайте «засекьюрим» его, сменив порт с 22 на 6022. Для этого, дважды нажмите на сервисный порт SSH и в открывшемся окне укажите настройку: Нажимаем Apply и ОК. 3. Защита от брут – форса (перебора) На официальном сайте Mikrotik существуют рекомендации о том, как защитить свой маршрутизатор от перебора паролей по FTP и SSH доступу. В предыдущем шаге мы закрыли FTP доступ, поэтому, если Вы строго следуете по данной инструкции, то используйте только код для защиты от SSH – атак. В противном случае, скопируйте оба. Итак, открываем терминал управления маршрутизатором. Для этого, в правом меню навигации нажмите New Terminal. Последовательно скопируйте указанный ниже код в консоль роутера: /ip firewall filter #Блокируем атаки по FTP add chain=input protocol=tcp dst-port=21 src-address-list=ftp_blacklist action=drop comment="drop ftp brute forcers" add chain=output action=accept protocol=tcp content="530 Login incorrect" dst-limit=1/1m,9,dst-address/1m add chain=output action=add-dst-to-address-list protocol=tcp content="530 Login incorrect" address-list=ftp_blacklist address-list-timeout=3h #Блокируем атаки по SSH add chain=input protocol=tcp dst-port=22 src-address-list=ssh_blacklist action=drop comment="drop ssh brute forcers" disabled=no add chain=input protocol=tcp dst-port=22 connection-state=new src-address-list=ssh_stage3 action=add-src-to-address-list address-list=ssh_blacklist address-list-timeout=10d comment="" disabled=no add chain=input protocol=tcp dst-port=22 connection-state=new src-address-list=ssh_stage2 action=add-src-to-address-list address-list=ssh_stage3 address-list-timeout=1m comment="" disabled=no add chain=input protocol=tcp dst-port=22 connection-state=new src-address-list=ssh_stage1 action=add-src-to-address-list address-list=ssh_stage2 address-list-timeout=1m comment="" disabled=no add chain=input protocol=tcp dst-port=22 connection-state=new action=add-src-to-address-list address-list=ssh_stage1 address-list-timeout=1m comment="" disabled=no Создание резервной копии конфигурации На случай выхода из строя или аварии роутера, необходимо иметь под рукой его конфиг для оперативного восстановления. Сделать его крайне просто: открываем терминал, нажав в меню навигации New Terminal и указываем следующую команду: export file=backup echo date("Y-m-d_H:i:s") Файл можно обнаружить нажав в меню навигации на раздел Files. Скачайте его себе на ПК, нажав правой кнопкой мыши и выбрав Download Блокировка доступа к сайта В рабочее время сотрудники должны работать. Поэтому, давайте заблокируем доступ к развлекательным ресурсам, таким как Youtube, Facebook и Вконтакте. Для этого, перейдите в раздел IP → Firewall. Нажимаем на вкладку Layer 7 Protocol и затем нажимаем на значок «+» в левом верхнем углу: Даем имя нашему правилу, которое будет оперировать на 7 уровне модели OSI, а в разделе Regexp добавляем: ^.+(youtube.com|facebook.com|vk.com).*$ Нажимаем OK и переходим к вкладке Filter Rules и нажимаем значок «+»: В разделе Chain выбираем Forward. Переходим в том же окне во вкладку Advanced и в поле Layer 7 Protocol выбираем созданное нами правило блокировки: Переходим во вкладку Action, и там выбираем Action = Drop: По окончанию настроек нажимаем Apply и OK.
ВЕСЕННИЕ СКИДКИ
40%
50%
60%
До конца акции: 30 дней 24 : 59 : 59