За последние несколько лет, объем устройств хранения увеличился в несколько раз, и параллельно с ним увеличивается объем используемых данных. Появляются мощные инструменты, позволяющие наиболее эффективно использовать выделенное пространство. Одна из технологий, доступных в Windows Server - это дедупликация. Microsoft продолжает добавлять новые возможности к функции дедупликации с каждым новым выпуском Windows.
Рассмотрим само понятие дедупликации, инсталляцию компонентов и работу в Windows Server. Включение дедупликации на томе, использование Планировщика заданий, а также использование PowerShell для проверки статуса работы и управления.
Что такое дедупликация данных в Windows Server?
Файловый сервер предприятия – хороший пример, с помощью которого можно визуализировать, на сколько могут быть огромны объемы пользовательских данных. На файловом ресурсе можно найти множество копий одних и тех же файлов или близко схожих по внутренней структуре, т.е. в нескольких файлах будут дублироваться блоки данных. Одни и те же отчеты, письма, служебные документы пересылаются и сохраняются пользователями разных подразделений на одном и том же файловом сервере. А это, в свою очередь, приводит к появлению избыточных копий, которые влияют на эффективность хранения данных и последующего резервирования.
В традиционных средах хранения так и происходит. Дедупликация предоставляет средства для однократного сохранения данных и создания ссылок на фактическое расположение данных. Таким образом, среда хранения перестает хранить дублирующуюся информацию. Компания Microsoft также продолжает совершенствовать функции дедупликации. В Windows Server 2019 появилась возможность выполнять дедупликацию томов NTFS и ReFS. До Windows Server 2019 дедупликация ReFS была невозможна.
Как работает дедупликация данных Windows Server?
Для реализации дедупликации данных в Windows Server использует два принципа
- Процесс дедупликации с данными выполняется не моментально. Это означает, что процесс дедупликации не будет влиять на производительность в процессе записи файла. Когда данные записываются в хранилище, они не оптимизируются. После этого запускается процесс оптимизации дедупликации, чтобы гарантировать дедупликацию данных.
- Конечные пользователи не знают о процессе дедупликации - дедупликация в Windows Server полностью прозрачна. Пользователи не подозревают, что они могут работать с дедуплицированными данными.
Для успешной дедупликации данных в соответствии с принципами, перечисленными выше, Windows Server использует следующие шаги:
- Файловая система сканирует хранилище, чтобы найти файлы, соответствующие политике оптимизации дедупликации.
- Файлы дробятся на фрагменты.
- Идентифицируются уникальные фрагменты данных
- Фрагменты помещаются в хранилище фрагментов.
- Создаются ссылки на хранилище фрагментов, чтобы было перенаправление при чтении этих файлов на соответствующие фрагменты.
Использование дедупликации
Ниже описана примерная экономия места при использовании дедупликации.
- 80–95% для сред виртуализации VDI, ISO файлы.
- 70–80% для файлов программного обеспечения, файлов CAB и других файлов.
- 50–60% для общих файловых ресурсов, которые могут содержать огромное количество дублированных данных.
- 30–50% для стандартных пользовательских файлов, которые могут включать фотографии, музыку и видео.
Установка компонентов дедупликации в Windows Server
Процесс установки Data Deduplication прост. Дедупликация данных является частью роли файловых служб и служб хранения. Можно установить используя графический интерфейс Server Manager, используя Windows Admin Center или командлет PowerShell.

Включить Дедупликацию из PowerShell можно следующим командлетом:
Install-WindowsFeature -Name FS-Data-Deduplication


Третий способ установить Дедупликацию данных – через Windows Admin Center перейдя в меню Roles & Features и установить галку напротив Data Deduplication. Затем нажать Install. Windows Admin Center предварительно должен быть установлен!

Включение дедупликации данных на томе
После того, как была установлена Дедупликация данных, процесс включения на томе будет простым. Используя Server Manager (Диспетчер серверов) перейдите к File and Storage Services (Файловым службам и службам хранения) -> Volumes (Тома) -> Disks (Диски). Выберите нужный диск. Затем выберите том, который находится на диске, на котором нужно запустить процесс дедупликации.

Выберем Configure Data Deduplication
На этом этапе можно выбрать тип данных для дедупликации: файловый сервер, VDI или Backup Server, в Параметрах установить возраст файлов для дедупликации, возможность добавить файлы или папки для исключения.

Здесь же настраивается расписание

В конфигурации расписания можно добавить дополнительное задание на то время, когда сервер используется минимально, чтобы максимально использовать возможности дедупликации.
Выполнение запланированных задач дедупликации данных
После создания расписания, в Task Scheduler (Планировщик заданий) создается новая задача, работающая в фоновом режиме. По умолчанию процесс дедупликации стартует каждый час. Запустив Task Scheduler и перейдя по пути MicrosoftWindowsDeduplication
можно запустить задачу BackgroundOptimization
вручную.

Использование PowerShell для проверки работы и управления дедупликацией
В PowerShell имеются командлеты для мониторинга и управления дедупликацией
Get-DedupSchedule
– покажет расписание заданий

Можно создать отдельное дополнительное задание по оптимизации дедупликации на томе E:
с максимальным использованием ОЗУ 20%
Start-DedupJob -Volume "E:" -Type Optimization -Memory 20

Get-DedupStatus
– отобразит состояние операций дедупликации и процент дедупликации

На данном этапе нет экономии места после включения дедупликации данных. В настройках расписания указано дедуплицировать файлы старше 2-х дней.
После запуска процесса мы начинаем видеть экономию места на томе.

Get-DedupMetadata
- просмотр метаданных по дедупликации

Server Manager также отобразит измененную информацию.

Если нужно отключить использование дедупликации, нужно использовать два командлета:
Disable-DedupVolume -Volume <буква тома>
Start-DedupJob -type Unoptimization -Volume <буква тома>
Необходимо учесть, что обратный процесс уменьшит свободное пространство на томе и у вас должно быть достаточно для этого места.
Вывод
Дедупликация данных в Windows Server - отличный способ эффективно использовать место на устройствах хранения данных. С каждым выпуском Windows Server возможности дедупликации продолжают улучшаться. Дедупликация обеспечивает огромную экономию места, особенно для файловых серверов и сред виртуализации VDI. Для последних экономия места может достигать 80 и более %.
Использование дополнительных опций, таких как расписание, управление типами файлов и возможность использовать исключения позволяет гибко настраивать дедупликацию. PowerShell предоставляет несколько командлетов, которые позволяют взаимодействовать, управлять и контролировать дедупликацию данных в Windows Server.