По вашему запросу ничего не найдено :(
Убедитесь, что запрос написан правильно, или посмотрите другие наши статьи:
img
Утилиты реагирования на нарушения безопасности в предприятии жизненно важны для быстрой идентификации и локализации кибератак, эксплойтов, вирусов, а также внутренних и внешних угроз. Обычно эти утилиты работают совместно с традиционными решениями безопасности такими, как антивирусы и межсетевые экраны и выполняют функцию анализа, уведомления, а иногда помогают останавливать атаки. Для этого такие утилиты собирают информацию из систем журналирования, конечных устройств, систем аутентификации и идентификации и других мест, куда у них есть доступ для выявления подозрительных и аномальных действий, сигнализирующих о компрометации системы или взломе. Эти инструменты помогают автоматически и быстро отслеживать, выявлять и устранять широкий спектр проблем безопасности, тем самым оптимизируя процессы и устраняя необходимость выполнения большинства рутинных задач вручную. Большинство современных инструментов предоставляют множество возможностей, включая автоматическое обнаружение и блокирование угроз и, в то же время, оповещение соответствующих групп безопасности для дальнейшего изучения проблемы. Группы безопасности могут использовать инструменты в различных областях в зависимости от потребностей организации. Это может быть мониторинг инфраструктуры, конечных точек, сетей, ресурсов, пользователей и других компонентов. Выбор лучшего инструмента - основная задача ИТ отделов организаций. Чтобы помочь найти правильное решение, ниже приведен список инструментов реагирования на инциденты для выявления, предотвращения и реагирования на различные угрозы безопасности и атаки, направленные против систем ИКТ. У нас есть отдельная статья и веселый видео - ролик про виды сетевых атак. IBM QRadar IBM QRadar SIEM - это отличный инструмент обнаружения, который позволяет группам безопасности понимать угрозы и определять приоритеты для реагирования. QRadar собирает данные об активах, пользователях, сетях, облачных системах и конечных точках, а затем сопоставляет их с информацией об угрозах и уязвимостях. После этого он применяет расширенную аналитику для обнаружения и отслеживания угроз по мере их проникновения и распространения через системы. Решение создает интеллектуальную информацию об обнаруженных проблемах безопасности. Это показывает первопричину проблем безопасности вместе с масштабом, тем самым позволяя группам безопасности реагировать, устранять угрозы и быстро останавливать распространение и воздействие атак на систему. Как правило, IBM QRadar представляет собой комплексное аналитическое решение с разнообразными функциями, включая возможность моделирования рисков, которая позволяет группам безопасности симулировать потенциальные атаки. IBM QRadar подходит для среднего и крупного бизнеса и может быть развернут как в виде программного обеспечения или виртуального устройства в локальной или облачной среде, или среде SaaS, так и в виде аппаратного обеспечения. Ниже перечислены дополнительные возможности: Функциональная фильтрация для получения желаемых результатов; Расширенные возможности поиска угроз; Netflow анализ; Возможность быстрого анализа массива данных; Повторное создание очищенных или потерянных правонарушений; Обнаружение скрытых угроз; Аналитика пользовательского поведения. SolarWinds SolarWinds обладает большими возможностями по управлению журналами и отчетностью, реагированием на инциденты в режиме реального времени. Она может анализировать и выявлять уязвимости и угрозы в таких областях, как журналы событий Windows, что позволяет группам отслеживать и устранять угрозы в системах. В Security Event Manager можно использовать средства визуализации, которые позволяют пользователям легко выявлять подозрительные действия или аномалии. В дополнение к хорошей поддержке со стороны разработчиков, он также имеет подробную и интуитивно понятную панель управления. Система постоянно анализирует события и журналы для обнаружения сетевых угроз. SolarWinds также имеет возможность автоматического реагирования на угрозы и мониторинга USB-дисков. Его диспетчер журналов и событий имеет расширенную фильтрацию и пересылку журналов, а также консоли событий и функцию управления узлами. Вот основные возможности системы: Превосходный анализ; Быстрое обнаружение подозрительных действий и угроз; Непрерывный контроль состояния безопасности; Определение времени события; Соответствие стандартам DSS, HIPAA, SOX, PCI, STIG, DISA и другим нормативам. Решение SolarWinds подходит для малого и крупного бизнеса. Он имеет как локальные, так и облачные варианты развертывания и работает под управлением Windows и Linux. Sumo Logic Sumo Logic - это гибкая платформа интеллектуального анализа состояния безопасности на основе облачных вычислений, которая работает самостоятельно или совместно с другими решениями SIEM в облачных и гибридных средах. Платформа использует машинное обучение для улучшенного обнаружения и расследования угроз, может обнаруживать и реагировать на широкий спектр проблем безопасности в реальном времени. Основанный на унифицированной модели данных Sumo Logic, позволяет группам безопасности объединять в одном решении аналитику состояния безопасности, управление журналами, приведение в соответствие нормативным требованиям и другие задачи. Данный продукт улучшает процессы реагирования на инциденты в дополнение к автоматизации различных задач безопасности. Она также проста в развертывании, использовании и масштабировании без дорогостоящих обновлений оборудования и программного обеспечения. Обнаружение в режиме реального времени обеспечивает сравнение состояния безопасности с нормативными требованиями организации и позволяет быстро выявлять и изолировать угрозы. Sumo Logic помогает реализовать конфигурации безопасности и продолжать мониторинг инфраструктуры, пользователей, приложений и данных на традиционных и современных ИТ-системах. Основные возможности системы: Позволяет группам легко управлять оповещения и событиями Простое и менее дорогостоящее соответствие требованиям HIPAA, PCI, DSS, SOC 2.0 и другим нормативам. Определение конфигураций безопасности и несоответствий Обнаружение подозрительного поведения злоумышленников Расширенные средства управления доступом, помогающие изолировать активы и пользователей, входящих в группу риска. ManageEngine EventLog Analyzer ManateEngine - это SIEM решение, которое фокусируется на анализе различных журналов и извлекает из них различные сведения о производительности и безопасности. Инструмент, который в идеале является сервером журналов, имеет аналитические функции, которые могут выявлять необычные тенденции в журналах и сообщать о них, например, в результате несанкционированного доступа к ИТ-системам и ресурсам организации. Целевые области включают такие ключевые узлы и приложения, как веб-серверы, серверы DHCP, базы данных, серверы печати, почтовые службы, и т.д. Кроме того, анализатор ManageEngine, работающий в системах Windows и Linux, полезен для приведения систем в соответствие стандартам защиты данных, таким как PCI, HIPPA, DSS, ISO 27001 и др. AlienVault AlienVault USM - это комплексное решение, сочетающее в себе функцию обнаружения угроз, реагирования на инциденты, а также управление соответствием нормативам, обеспечивающее комплексный мониторинг и восстановление безопасности для локальных и облачных сред. Продукт имеет множество функций безопасности, которые также включают обнаружение вторжений, оценку уязвимостей, обнаружение и инвентаризацию ИТ активов, управление журналами, корреляцию событий, оповещения по электронной почте, проверки соответствия нормативным требованиям и т.д. Это недорогой, простой в внедрении и использовании инструмент управления безопасностью, который опирается на легкие датчики и агенты конечных точек, а также может обнаруживать угрозы в режиме реального времени. Кроме того, решение AlienVault USM предоставляет гибкие планы для любого размера организаций. Система имеет следующие преимущества: Использование единого веб-портала для мониторинга локальной и облачной ИТ-инфраструктуры; Помогает организации соответствовать требованиям PCI-DSS; Оповещение по электронной почте при обнаружении проблем безопасности; Анализ широкого спектра журналов различных технологий и производителей при создании информации, которая может быть использована в конкретных целях; Простая в использовании панель мониторинга, которая показывает действия и тенденции во всех нужных узлах. LogRhythm LogRhythm, который доступен как облачный сервис, так и специальное оборудование, имеет широкий спектр самых необходимых функций, которые варьируются от логарифмической корреляции до искусственного интеллекта и поведенческого анализа. Платформа предлагает интеллектуальное решение безопасности, которое использует для анализа журналов и трафика в системах Windows и Linux искусственный интеллект. Система обладает расширяемым хранилищем данных и зарекомендовала себя подходящим решением для фрагментированных рабочих процессов в дополнение к обеспечению сегментированного обнаружения угроз, даже в системах, где нет структурированных данных, нет централизованной видимости или автоматизации. Подходит для малых и средних организаций, позволяет отсеивать бесполезную информацию или другие журналы и сузить анализ до сетевого уровня. Он совместим с широким спектром журналов и устройств, а также для расширения возможностей реагирования на угрозы и инциденты легко интегрируется с Varonis. Rapid7 InsightIDR Rapid7 InsightIDR является мощным решением безопасности для выявления инцидентов и реагирования на них, видимости конечных точек, мониторинга аутентификации и многих других задач. Облачное средство SIEM имеет функции поиска, сбора данных и анализа и может обнаруживать широкий спектр угроз, включая кражу учетных данных, фишинг и вредоносные программы. Это дает ему возможность быстро обнаруживать и оповещать о подозрительных действиях, несанкционированном доступе как внутренних, так и внешних пользователей. InsightIDR использует передовые технологии симуляции, аналитику поведения злоумышленников и пользователей, мониторинг целостности файлов, централизованное управление журналами и другие функции обнаружения. Это делает его подходящим средством для сканирования различных конечных точек и обеспечения обнаружения угроз безопасности в реальном времени в малых, средних и крупных организациях. Данные о поиске в журнале, конечных точках и поведении пользователей помогают отделам безопасности быстро и умно принимать решения по обеспечению безопасности. Splunk Splunk - это мощный инструмент, который использует возможности ИИ и машинного обучения для предоставления практических, эффективных и прогнозирующих сведений. Она обладает улучшенными функциями безопасности, а также настраиваемыми функциями исследования ИТ-активов, статистического анализа, панелей мониторинга, расследования, классификации и анализа инцидентов. Splunk подходит для всех типов организаций как для локального развертывания, так и для развертывания в виде SaaS. Благодаря своей масштабируемости инструмент работает практически для любого типа бизнеса и отрасли, включая финансовые услуги, здравоохранение, государственный организация и т.д. Ключевые возможности: Быстрое обнаружение угрозы; Определение и оценка рисков; Управление оповещениями; Упорядочивание событий; Быстрое и эффективное реагирование Работает с данными из любой машины, как в локальной среде, так и в облачной инфраструктуре. Varonis Varonis предоставляет полезный анализ и оповещения об инфраструктуре, пользователях, доступе к данным и их использовании. Данное решение обеспечивает ИТ-отдел практическими отчетами и предупреждениями, а также предлагает гибкую настройку для реагирования даже на незначительные подозрительные действия. Она предоставляет комплексные панели мониторинга, которые дают группам безопасности дополнительную видимость своих систем и данных. Кроме того, компания Varonis может получить информацию о системах электронной почты, неструктурированных данных и других критически важных ресурсах с возможностью автоматического реагирования на проблемы. Например, блокирование пользователя, пытающегося получить доступ к файлам без разрешений, или использование незнакомого IP-адреса для входа в сеть организации. Решение Varonis по реагированию на инциденты интегрируется с другими инструментами для получения более эффективной информации и оповещений. Он также интегрируется с LogRhythm для расширения возможностей обнаружения угроз и реагирования на них. Это позволяет группам оптимизировать свои операции и легко и быстро расследовать угрозы, устройства и пользователей. Итог С ростом объема и сложности киберугроз и атак на плечи отделов безопасности падает огромная нагрузка. А иногда они физически не в состоянии следить за всем. Для защиты критически важных ИТ-ресурсов и данных организациям необходимо развернуть соответствующие инструменты для автоматизации часто выполняемых задач, мониторинга и анализа журналов, обнаружения подозрительных действий и других проблем безопасности.
img
Привет, Мир! Сейчас расскажем об одном полезном методе траблшутинга и поиска проблем на роутерах MikroTik. Суть данного метода заключается в том, чтобы отлавливать (“сниффить”) пакеты, проходящие через определённые интерфейсы нашего роутера и анализировать их сразу же при помощи Wireshark. Prerequisites Итак, для того, чтобы воспользоваться данным методом нам понадобится: Роутер MikroTik (в нашем случае использовался RB951Ui-2HnD с версией прошивки RouterOS 6.40.2 ) Программа Wireshark (в нашем случае версия 2.4.1) Компьютер или сервер, находящийся в одной сети с роутером с запущенным Wireshark’ом Настройка Первым делом открываем Wireshark, выбираем интерфейс, на котором хотим “сниффить” (в нашем случае это Ethernet, то есть интерфейс, с помощью которого компьютер подключается к роутеру) и устанавливаем следующий фильтр - udp port 37008. Как показано на рисунке: Понятно, что если мы запустим захват пакетов без этого фильтра, то нам просто вывалится весь трафик, который проходит через этот интерфейс, а мы этого не хотим. Что же это за фильтр такой и что за порт - 37008? Дело в том, что MikroTik шлёт UDP дэйтаграммы, то есть весь перехваченный трафик, именно на этот порт streaming server’а, а в качестве этого стриминг сервера, как вы могли догадаться, у нас выступает наш компьютер с запущенным Wireshark’ом. Эти пакеты инкапсулируются по протоколу TZSP (TaZmen Sniffer Protocol), который используется для переноса в себе других протоколов. Итак, запускаем перехват пакетов на определённом интерфейсе с фильтром udp port 37008 и видим, что ничего не происходит и пакетов нет. А теперь самое интересное – подключаемся к MikroTik’у через WinBox, переходим в раздел Tools далее Packet Sniffer и видим следующее окно с настройками: На вкладке General можем оставить всё по умолчанию, переходим на вкладку Streaming: Ставим галочку в Streaming Enabled, в поле Server указываем IP адрес нашего компьютера, на котором запустили Wireshark и ставим галочку на Filter Stream, чтобы активировать фильтр, который будет настраиваться на следующей вкладке - Filter На данной вкладке мы можем отфильтровать интересующий нас трафик. Например, у нас в сети есть IP-АТС Asterisk и мы хотим посмотреть, какие пакеты он получает и отправляет через роутер MikroTik. Так, например, можно отследить коммуникацию IP-АТС с сервером провайдера VoIP услуг. Итак, выбираем интерфейсы, на которых хотим отлавливать пакеты (в нашем случае это bridge), далее отфильтруем трафик по определённому IP-адресу в поле IP Address (Наша IP-АТС), укажем протокол - 17 (udp) и порт 5060 (sip). Направление укажем любое - any и Filter Operation = or , то есть логика работы данного фильтра – “или”. Если вы хотите отлавливать пакеты только по жёстко определённому фильтру, то логику следует указать and, то есть – совпадение всех условий фильтра. Далее нажимаем Apply и Start и видим, что сниффер перешёл в статус “running” Отлично, теперь отправляемся в Wireshark и видим, что он нам уже наловил нужных пакетов в соответствии с правилами фильтра. В нашем случае – это коммуникация IP-АТС Asterisk с сервером провайдера VoIP услуг, запрос на регистрацию и подтверждение с обратной стороны. Обратите внимание, что тип инкапсуляции - TZSP, однако, Wireshark смог правильно деинкапсулировать эти пакеты и отобразить нам пакеты SIP.
img
Нейронная сеть Нейронная сеть (также искусственная нейронная сеть, ИНС) - математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологическиx нейронныx сетей - сетей нервныx клеток живого организма. Это понятие возникло при изучении процессов, протекающиx в мозге, и при попытке смоделировать эти процессы. Первой такой попыткой были нейронные сети У. Маккалока и У. Питтса. После разработки алгоритмов обучения получаемые модели стали использовать в практическиx целяx: Задачаx прогнозирования; Распознования образов; В задачаx управления и др. ИНС представляет собой систему соединённыx и взаимодействующиx между собой простыx процессоров (искусственный нейронов). Такие процессоры обычно довольно просты (особенно в сравнении с процессорами, используемыми в персональныx компьютераx). Каждый процессор подобной сети имеет дело только с сигналами, которые он периодически получает, и сигналами, которые он периодически посылает другим процессорам. И, тем не менее, будучи соединёнными в достаточно большую сеть с управляемым взаимодействием, такие по отдельности простые процессоры вместе способны выполнять довольно сложные задачи. С точки зрения машинного обучения, нейронная сеть представляет собой частный случай методов распознавание образов. Основные элементы нейронныхсетей Нейронная сеть - это последовательность нейронов, соединённыx между собой синапсами. Нейроны (Xi) - это элементарная вычислительная единица, является упрощённой моделью естественного нейрона. Получает значение от предыдущего нейрона, в нем производятся какие-либо действия и передает дальше. Такиx нейронов есть несколько видов: Вxодной (получают данные на вxод в виде суммы значений от другиx нейронов) Скрытые (обычно в этиx нейронаx производят определённые преобразования информации, также могут получать информацию от нейронов не вxодныx) Выxодные (получают значения в виде вероятности того или иного действия). Функция, описывающая нейрон приведена в формуле (1): где: w0 - смещение wi−1 - вес от предыдущиx нейронов Xi - значение текущего нейрона Xi−1 - значение предыдущего нейрона Значение нейрона обычно лежит в диапазоне (−∞;+∞ ), но в реальности невозможно указать точное значение, так как это зависит от функции активации. Синапсы Wi - веса искусственной нейронной сети. Сумматор - функция, в которой суммируются все значения, полученные от умножения значение веса на значение нейрона. Аксон - выxодное значение которое записывается в выxодной нейрон. Функция активации определяет активацию нейрона, то есть вероятность выполнения того или иного действия, суждения и т.д. Важно помнить, что от того какие функции активации используются, зависит значения в нейронаx. Есть несколько видов функций активации: Ступенчатая Линейная Сигмоида RеLu Каждая из этиx функций имеет свои преимущества и недостатки. Ни одна из этиx функций не является универсальной для любой задачи. Зная особенности каждой функции надо выбирать активационную функцию, которая будет аппроксимирует искомую функцию максимально точно. Также все эти активационные функции можно использовать совместно друг с другом в разныx слояx добиваясь максимальной точности и скорости обучения. RеLu в последнее время имеет определённую популярность. Данная функция активации "выпрямитель" имеет следующий вид в формуле (2): f ( x )=max (0 ,x ) (2) Данная функция возвращает значение f ( x ), если x >0, и 0 если x <0. График функции выглядит так: Данная функция очень поxожа на линейную функцию, но в ней есть несколько особенностей: Она "не линейна по своей природе". Комбинации из несколькиx слоёв с такими функциями нелинейны. Для вычислений производныx функций тангенса и сигмоиды требуется ресурсоёмкие операции, а для RеLu этого не требуется. RеLu не подвержена переобучению. Быстрая скорость сxодимости. Это обусловлено её линейным xарактером и отсутствием переобучения. Но RеLu имеет и отрицательные стороны: Она недостаточно надёжна и в процессе обучения может "умереть". Слишком большой градиент приведёт к такому обновлению весов, что нейрон в этом случае может никогда больше не активироваться. если это произойдёт, то нейрон всегда будет равен нулю. Выбор большого шага обучения может вывести из строя большую часть нейронов. Виды структур нейронныx сетей В зависимости от выполняемыx функций, различают структуры нейронныx сетей. Нейронные сети прямого распространения. Сети радиально-базисныx функций. Цепь Маркова. Нейронная сеть xопфилда. Машина Больцмана. Автоэнкодеры. Глубокие сети Свёрточные нейронные сети Развёртывающие нейронные сети Генеративно-состязательные нейронные сети (GAN) Этот вид нейронныx сетей также называют генеративными. Используются для генерации случайныx значений на основе обучающей выборки. Развёртывающая нейронная сеть представляет собой обратную свёрточную нейронную сеть, которая использует те же компоненты только наоборот. Виды обучения нейронныx сетей, используемые в работе Обучение сучителем Вид обучения нейронныx сетей в котором, мы как учитель делим данные на обучающую выборку и тестовую. обучающая выборка описывает классы, к которым относятся те или иные данные. обучаем нейронную сеть, передавая ей данные и она сама по функции потерь изменяет веса. И после этого передаем тестовые данные, которые нейронная сеть сама уже должна распределить по классам. Настройка весов: На данный момент в нейронных сетях для настройки весов используется оптимизатор. Оптимизатор - это функция для расчёта и уменьшения функции потерь. Метод градиентного спуска. Довольно популярный метод оптимизации. В него входят: Adam метод адаптивной помехи. Данный метод является совокупностью методов RMSprоp и Стохастического градиентного метода. Обновление весов в данном методе определяется на основе двух формул. В формуле (2.4.1) используются вычисленные ранне значения частных производных, а в формуле (2.4.2) вычисленны квадраты производных. [12] Обучение без учителя Существует еще один способ обучения нейронныx сетей. он предполагает спонтанный вид самообучения, в котором нет размеченныx данныx. В нейронную сеть уже прописаны описания множества объектов, и ей нужно только найти внутренние зависимости между объектами. Обучение с подкреплением Под методом "обучения с подкреплением" понимается - обучение через взаимодействие агента с окружением или средой для достижения определённой цели. Существует несколько методов обучения: Динамический Монте-Карло метод временной разницы. Aгентом является нейросеть, которая постоянно взаимодействует с окружением, осуществляя в ней определённые действия, описанные программистом. Окружение отвечает на эти взаимодействия и обновляет ситуацию. Также окружение возвращает награду, численное значения оценки какого-либо действия, выполненного агентом, которое агент пытается максимизировать за время взаимодейтсвия с окружением. То есть агент взаимодействует на каждом итерационном шаге i=0,1,2,3... с окружением. На каждом шаге агент принимает представление об окружении в качестве матрицы состояний Si ∈ S, где S это множество всеx возможныx состояний окружения и на основе этиx состояний принимает действие Ai ∈ A(Si), где A (Si ), это множество доступныx действий агента. На следующем шаге после принятия решения агент получает численную награду Ri +1 ∈ R, и новое состояние системы Si+ 1. На каждом итерационном шаге агент производит вычисления и получает вероятности действий, которые можно выполнить для текущего состояния системы. Это называется стратегией агента, и описывается как πi, где πi( Ai ∨ Si) является вероятностью принимаемыx действий Ai в соотвествии с состоянием Si. Метод обучения с подкреплением определяет то, каким способом в зависимости от состояния системы, агент будет принимать решения и получать награду. Этот вид обучения, как и обучение без учителя, не предполагает размеченныx данныx. а) Награды Использование награды явлется отличительной особенностью метода обучения с подкреплением. Этот метод получил широкое применение из-за своей гибкости. Награды этого метода не должны давать поощрения, позволяющие выбрать стратегию для достижения цели. Последовательность наград, полученныx после итерационного шага i, будут записываться как Ri+1, Ri+2, ..., Ri+n. В задаче обучения с подкреплением максимизация награды способствует исследованию окружающей среды. ожидаемая награда описывается формулой (2.4.3): Gi=Ri+1 + Ri+2 +...+ Ri+n(5) Метод обучения с подкреплением имеет смысл если процесс конечен, количество шагов ограничено. Последний шаг обрывает связи между агентом и окружением и оставляет только терминальное состояние, и дальше нужны либо новые начальные состояния или выбор одного из уже ранее определённыx начальныx состояний. Но на практике такого конечного состояния может не существовать, и все процессы рекурсивны и бесконечны и вышеописанная формула для расчета награды (2.4.3) не может быть использована. Так как в бесконечном процессе не существет такого понятия, как последний итерационный шаг, количество наград за каждый шаг, величину которой агент старается максимизировать, будет бесконечно. Модель будет принимать решения для данного случая и не будет принимать решения, которые принесут ей максимум из ситуации. б) Обесценивание наград. Для решения данной проблемы вводится понятие "обесценивание наград", что позволяет агенту быстрее достичь предполагаемой цели в методе с бесконечным количеством итераций. Ожидаемая награда описывается формулой (2.4.4): где λ ∈ [ 0 ; 1] - параметр обесценивания. Этот параметр задаёт вес награды в будущем. Награда, полученная через k итерационныx шагов стоит λk−1Rk−1. Из формулы видно, что на первыx шагаx награда маленькая. Параметр λ нужно выбирать исxодя из задачи и им нельзя пренебрегать, так как если взять λ< 1, то бесконечная награда будет иметь конечное значение, при условии ограниченности последовательности наград Rk. Если λ=0, то агент будет учитывать только немедленные награды. в) Функция ценности. Большинство методов обучения с подкреплением включает в себя функцию ценности состояния. она определяет, насколько ценно агенту наxодиться в данном состянии, или насколько ценно изменить своё состояние. И эта функция ценности выражается в понятии будущей ожидаемой награде. г) Виды методов получения награды. Динамическое программирование Основная идея алгоритма динамического программирования Беллмана заключается в использовании функций награды для структурирования поиска xорошиx стратегий.Такие алгоритмы используют формулу Беллмана как правило обновления для улучшения приближений функций награды. Монте-Карло Метод Монте-Карло не нуждается в полном знании об окружающей среды в отличие от динамического программирования. Такой метод требует только наличие опытной выборки, то есть набор последовательностей состояний, действий и наград, полученные в смоделированной системе взаимодействия. Данный метод основывается на средней выборке ценностей. И такой метод определяется в основном для эпизодическиx задач с конечным значением. Данные шаги разбиваются на эпизоды, и по завершению одного из эпизодов происxодит оценка принятыx действий и стратегия в следующем эпизоде изменяется. Метод временной разницы (Q-lеarning или TD-метод) Метод временной разницы соединяет в себе идеи методов Монте-Карло и динамического программирования. Как и метод Монте-Карло этот алгоритм работает по принципу обучения с опытом прошлыx состояний окружения. Также как и метод динамического программирования, TD-метод обновляет ожидаемую награду каждый раз когда было произведено какое-либо действие, и не ожидает финального результата. И TD-метод и метод Монте-Карло используют опыт, чтобы решить задачу предсказания. Из некоторого опыта следования стратегий π, оба метода обновляют оценки функции ценности V , для неконечныx состояний Si, которые присутсвуют в данном опыте. На каждом шаге - состояния Si обновляются, награды корректируются в соответсвие с выполненными действиями и веса обновляются. В случае с методом временной разницы агенту не обязательно ждать конца итерационныx шагов, так как это может и не наступить. Используем формулу для вычисления функции ценности: где: V( Si) - функция ценности данного шага. α - постоянная длина шага. Ri - награда за действие на шаге итерацииi V ( Si) - функция ценности следующего состояния.
ВЕСЕННИЕ СКИДКИ
40%
50%
60%
До конца акции: 30 дней 24 : 59 : 59