По вашему запросу ничего не найдено :(
Убедитесь, что запрос написан правильно, или посмотрите другие наши статьи:
img
В данной статье будет проведена кластеризация заранее подготовленного корпуса текстов. Он получен в результате работы программы-краулера, собиравшего новостные статьи с сайта arstechnica.com, присваивая каждому собранному тексту тему, к которой он был приписан на сайте. В ходе работы будет проведена кластеризация собранных текстов и визуализированы ключевые слова и максимально близкие к ним по смыслу на основании алгоритма word2vec. Наработки, освещенные в данной работе, могут быть использованы в беспрерывном анализе сайтов по поступающим адресам с целью автоматизации поиска данных по каким-либо критериям. Теория Лемматизация – это процесс преобразования слова в его базовую форму, которая учитывает контекст (в отличие от стемминга (stemming), который находит основу слова, не учитывая контекст). Wordnet – это большая лексическая база данных английского языка для установления структурированных семантических отношений между словами. Библиотека предлагает возможности лемматизации. Word2vec — это инструмент для расчета векторных представлений слов, который реализует основные архитектуры — Continuous Bag of Words (CBOW) и Skip-gram. Суть в том, что на вход подается текст, а на выходе мы получаем набор векторов слов. Используется для нахождения связей между контекстами. CBOW и Skip-gram — нейросетевые архитектуры, которые описывают, как именно нейросеть «учится» на данных и «запоминает» представления слов. Принципы у обоих архитектур разные. Принцип работы CBOW — предсказывание слова при данном контексте, а skip-gram наоборот — предсказывается контекст при данном слове. Практическая часть Сначала нужно считать корпус из ранее подготовленного файла и вывести краткие сведения о нем, чтобы убедиться, что все верно: Убираем из текстов знаки препинания и слова, которые слишком часто применяются и часто не несут смысловой нагрузки (так называемые стоп-слова), а именно предлоги, артикли, частицы, часть местоимений и некоторые формы вспомогательных глаголов: После необходимо разбить корпус на две выборки: обучающую и тестовую. С помощью обучающей выборки предполагается обучить метод векторизации и кластеризатор, а с помощью тестовой – проверить результаты их работы. С помощью параметра test_size можно задать соотношение размеров выборок. Затем можно приступить к векторизации текстов выборок. Количество признаков установлено на 500 и после этого сделано усреднение длин векторов. Обучив векторизатор, можно посмотреть наиболее близкие по контексту слова. Эта функция будет использована далее для визуализации Wordcloud. Для визуализации результатов кластеризации нужно выделить 2 главных признака и вывести координаты точек, исходя из значений двух выделенных параметров. Наконец, можно приступить к визуализации облака слов. Оно строится на основании веса каждого слова в корпусе. А так как в качестве корпуса подается топ-100 слов, семантически близких к слову car, то данное облако полностью состоит из слов, близких к car по мнению word2vec. Заключение В заключение нужно отметить, что, хотя данная кластеризация прошла относительно успешно, что видно из приведенных метрик и общему виду кластеров (их можно легко отделить друг от друга, в общей своей массе каждый из них имеет крайне малое количество своих представителей на территории другого кластера), все же можно подобрать лучшие параметры. Также повышению качества будет способствовать увеличение размеров корпуса и ручная доработка корпуса стоп-слов и пунктуации, хотя стоит отметить, что они и в стандартном виде работают достаточно эффективно для столь небольшой обучающей выборки (5952 текста о 5 разных, иногда пересекающихся, темах).
img
Это один из самых древних шифров, в своё время он был очень популярен и даже сам Цезарь его использовал и своё название он получил именно поэтому. Принцип работы: Шифрование: Для начала необходимо взять язык, на котором будет написано сообщение, для примера возьмём русский язык. Теперь каждую букву нужно пронумеровать. Таблица 1. Русский алфавит 1. А 2. Б 3. В 4. Г 5. Д 6. Е 7. Ё 8. Ж 9. З 10. И 11. Й 12. К 13. Л 14. М 15. Н 16. О 17. П 18. Р 19. С 20. Т 21. У
img
Подключение по HTTPS – признак надежности и безопасной передачи данных. Чтобы реализовать безопасное подключение по HTTPS, нужно иметь SSL сертификат. В статье расскажем, как сгенерировать самоподписанный сертификат (self signed), а также как импортировать файл сертификата в формате .pfx. После, покажем установку и применение сертификатов к сайту в веб – сервере Microsoft IIS (Internet Information Services). В статье мы используем IIS (Internet Information Services) версии 10.0.14393.0 Создание и установка самоподписанного сертификата Открываем IIS Manager. Далее, в меню слева (раздел Connections) нажимаем на корень (как правило это хостнейм вашей машины) и в открывшейся в центральной части рабочей области дважды кликаем левой кнопкой на Server Certificates: IIS так же можно запустить из под Administrative Tools В правом меню видим меню навигации Actions. Нажимаем на Create Self-Signed Certificate…. Открывается следующее окно: Указываем имя для нашего сертификата и нажимаем «OK». Далее, выбираем наш сайт в меню слева: Как только нажали на наш сайт, выбираем в правом поле меню Bindings, далее, редактируем текущее HTTPS подключение (по 443 порту) нажав Edit и выбираем сгенерированный самоподписанный SSL сертификат. Нажимаем ОК. После, открываем командную строку cmd и перезагружаем IIS сервер командой: iisreset /restart Кстати, для рестарта, можно использовать просто команду iisreset без ключа restart Импорт сертификата .pfx Аналогично как и с самоподписанным сертификатом (раздел Connections) нажимаем на корень и кликаем на Server Certificates. Далее, справа, нажимаем Import: Открываем на .pfx файл: Когда для вас создавали .pfx, на него установили пароль – введите этот пароль в поле ниже и нажмите OK. Далее, все стандартно – выбираем сайт слева → Bindings → редактируем текущее подключение по 443 порту → выбираем сертификат, который только что сделали в разделе SSL certificate → нажимаем OK. По окончанию, снова рестартуем IIS: iisreset /restart
ВЕСЕННИЕ СКИДКИ
40%
50%
60%
До конца акции: 30 дней 24 : 59 : 59