27 августа 2022

7 минут

Что такое нормализация базы данных?

Нормализация базы данных (БД) - это метод проектирования реляционных БД, который помогает правильно структурировать таблицы данных. Процесс направлен на создание системы с четким представлением информации и взаимосвязей, без избыточности и потери данных.

узнай больше на курсе

DevOps-инженер с нуля

Стань DevOps-инженером с нуля и научись использовать инструменты и методы DevOps

Подробнее о курсе

Полный курс по сетевым технологиям

Полный курс по сетевым технологиям от Мерион Нетворкс - учим с нуля сетевых инженеров и DevOPS специалистов

Подробнее о курсе

Python программист с нуля

Стань разработчиком на одном из самых популярных языков программирования - Python

Подробнее о курсе

В данной статье рассказывается, что такое нормализация базы данных, и объясняются принципы ее работы на практическом примере.

Что такое нормализация базы данных?

Нормализация базы данных - это метод создания таблиц БД со столбцами и ключами путем разделения (или декомпозиции) таблицы большего размера на небольшие логические единицы. В данном методе учитываются требования, предъявляемые к среде БД.

Нормализация - это итеративный процесс. Как правило, нормализация БД выполняется через серию тестов. Каждый последующий шаг разбивает таблицу на более легкую в управлении информацию, чем повышается общая логичность системы и простота работы с ней.

Зачем нужна нормализация базы данных?

Нормализация позволяет разработчику БД оптимально распределять атрибуты по таблицам. Данная методика избавляет от:

атрибутов с несколькими значениями;
задвоения или повторяющихся атрибутов;
атрибутов, не поддающихся классификации;
атрибутов с избыточной информацией;
атрибутов, созданных из других признаков.

Необязательно выполнять полную нормализацию БД. Однако она гарантирует полноценно функционирующую информационную среду. Этот метод:

позволяет создать структуру базы данных, подходящую для общих запросов;
сводит к минимуму избыточность данных, что повышает эффективность использования памяти на сервере БД;
гарантирует максимальную целостность данных, устраняя аномалий вставки, обновления и удаления.

Нормализация базы данных преобразует общую целостность данных в удобную для пользователя среду.

Избыточность баз данных и аномалии

Когда вы вносите изменения в таблицу избыточностью, вам придется корректировать все повторяющиеся экземпляры данных и связанные с ними объекты. Если этого не сделать, то таблица станет несогласованной, и при внесении изменений возникнут аномалии.

Так выглядит таблица без нормализации:

Для таблицы характерна избыточность данных, а при изменении этих данных возникают 3 аномалии:

Аномалия вставки. При добавлении нового «Сотрудника» (employee) в «Отдел» (sector) Finance, обязательно указывается его «Руководитель» (manager). Иначе вы не сможете вставить данные в таблицу.
Аномалия обновления. Когда сотрудник переходит в другой отдел, поле «Руководитель» содержит ошибочные данные. К примеру, Джейкоб (Jacob) перешел в отдел Finance, но его руководителем по-прежнему показывается Адам (Adam).
Аномалия удаления. Если Джошуа (Joshua) решит уволиться из компании, то при удалении строки с его записью потеряется информация о том, что отдел Finance вообще существует.

Для устранения подобных аномалий используется нормализация базы данных.

Основные понятия в нормализации базы данных

Простейшие понятия, используемые в нормализации базы данных:

ключи - атрибуты столбцов, которые однозначно (уникально) определяют запись в БД;
функциональные зависимости - ограничения между двумя взаимосвязанными атрибутами;
нормальные формы - этапы для достижения определенного качества БД.

Нормальные формы базы данных

Нормализация базы данных выполняется с помощью набора правил. Такие правила называются нормальными формами. Основная цель данных правил - помочь разработчику БД в достижении нужного качества реляционной базы.

Все уровни нормализации считаются кумулятивными, или накопительными. Прежде чем перейти к следующему этапу, выполняются все требования к текущей форме.

Стадии нормализации:

Стадия	Аномалии избыточности
Ненормализованная (нулевая) форма (UNF)	Это состояние перед любой нормализацией. В таблице присутствуют избыточные и сложные значения
Первая нормальная форма (1NF)	Разбиваются повторяющиеся и сложные значения; все экземпляры становятся атомарными
Вторая нормальная форма (2NF)	Частичные зависимости разделяются на новые таблицы. Все строки функционально зависимы от первичного ключа
Третья нормальная форма (3NF)	Транзитивные зависимости разбиваются на новые таблицы. Не ключевые атрибуты зависят от первичного ключа
Нормальная форма Бойса-Кода (BCNF)	Транзитивные и частичные функциональные зависимости для всех потенциальных ключей разбиваются на новые таблицы
Четвертая нормальная форма (4NF)	Удаляются многозначные зависимости
Пятая нормальная форма (5NF)	Удаляются JOIN-зависимости (зависимости соединения)

База данных считается нормализованной после достижения третьей нормальной формы. Дальнейшие этапы нормализации усложняю структуру БД и могут нарушить функционал системы.

Что такое Ключ?

Ключ БД (key) - это атрибут или группа признаков, которые однозначно описывают сущность в таблице. В нормализации используются следующие типы ключей:

суперключ (Super Key) - набор признаков, которые уникально определяют каждую запись в таблице;
потенциальный ключ (Candidate Key) - выбирается из набора суперключей с минимальным количеством полей;
первичный ключ (Primary Key) - самый подходящий кандидат из набора потенциальных ключей; служит первичным ключом таблицы;
внешний ключ (Foreign Key) - первичный ключ другой таблицы;
составной ключ (Composite Key) - уникальный ключ, образованный двумя и более атрибутами, каждый из которых по отдельности не является ключом.

Поскольку таблицы разделяются на несколько более простых единиц, именно ключи определяют точку ссылки для объекта БД.

Например, в следующей структуре базы данных:

Примерами суперключей являются:

employeeID;
(employeeID, name);
email

Все суперключи служат уникальным идентификатором каждой строки. К примеру, имя сотрудника и его возраст не считаются уникальными идентификаторами, поскольку несколько людей могут быть тезками и одногодками.

Потенциальные ключи выбираются из набора суперключей с минимальным количеством полей. В нашем примере это:

employeeID;
email

Оба параметра содержат минимальное количество полей, поэтому они хорошо подходят на роль потенциальных ключей. Самый логичный выбор для первичного ключа - поле employeeID, поскольку почта сотрудника может измениться. На такой первичный ключ легко ссылаться в другой таблице, для которой он будет считаться внешним ключом.

Функциональные зависимости базы данных

Функциональная зависимость БД отражает взаимосвязь между двумя атрибутами таблицы. Функциональные зависимости бывают следующих типов:

тривиальная функциональная зависимость - зависимость между атрибутом и группой признаков; исходный элемент является частью группы;
нетривиальная функциональная зависимость - зависимость между атрибутом и группой признаков; признак не является частью группы;
транзитивная зависимость - функциональная зависимость между тремя атрибутами: второй атрибут зависит от первого, а третий - от второго. Благодаря транзитивности, третий атрибут зависит от первого;
многозначная зависимость - зависимость, в которой несколько значений зависят от одного атрибута.

Функциональные зависимости - это важный этап в нормализации БД. В долгосрочной перспективе такие зависимости помогают оценить общее качество базы данных.

Примеры нормализации базы данных. Как нормализовать базу данных?

Общие этапы в нормализации базы данных подходят для всех таблиц. Конкретные методы разделения таблицы, а также вариант прохождения или не прохождения через третью нормальную форму (3NF) зависят от примеров использования.

Пример ненормализованной базы данных

В одном столбце ненормализованной таблицы содержится несколько значений. В худшем случае в ней присутствует избыточная информация.

Например:

Добавление, обновление и удаление данных - все это сложные задачи. Выполнение любых изменений текущих данных сопряжено с высоким риском потери информации.

Шаг 1: Первая нормальная форма (1NF)

Для преобразования таблицы в первую нормальную форму значения полей должны быть атомарными. Все сложные сущности таблицы разделяются на новые строки или столбцы.

Чтобы не потерять информацию, для каждого сотрудника дублируются значения столбцов managerID, managerName и area.

Доработанная таблица соответствует первой нормальной форме.

Шаг 2: Вторая нормальная форма (2NF)

Во второй нормальной форме каждая строка таблицы должна зависеть от первичного ключа.

Чтобы таблица соответствовала критериям этой формы, ее необходимо разделить на 2 части:

Manager (managerID, managerName, area)

Вторая нормальная форма (2NF), таблица 1

Employee (employeeID, employeeName, managerID, sectorID, sectorName)

Вторая нормальная форма (2NF), таблица 2

Итоговая таблица во второй нормальной форме представляет собой 2 таблицы без частичных зависимостей.

Шаг 3: третья нормальная форма (3NF)

Третья нормальная форма разделяет любые транзитивные функциональные зависимости. В нашем примере транзитивная зависимость есть у таблицы Employee; она разбивается на 2 новых таблицы:

Employee (employeeID, employeeName, managerID, sectorID)

Третья нормальная форма (3NF), таблица 1

Sector (sectorID, sectorName)

Теперь таблица соответствует третьей нормальной форме с тремя взаимосвязями. Конечная структура выглядит так:

Теперь база данных считается нормализованной. Дальнейшая нормализация зависит от ваших конкретных целей.

Заключение

В статье рассказывалось, как с помощью нормализации БД можно сократить избыточность информации. В долгосрочной перспективе нормализация БД позволяет свести к минимуму потерю данных и улучшить их общую структуру.

Если же вы хотите повысить производительность доступа к данным, то воспользуйтесь денормализацией БД.

А если вы испытываете трудности с нормализацией базы данных, то рассмотрите возможность перехода на другой тип БД.

Database

Базы данных

Нормализация

Получите бесплатные уроки на наших курсах

Все курсы

узнай больше на курсе

DevOps-инженер с нуля

Стань DevOps-инженером с нуля и научись использовать инструменты и методы DevOps

Подробнее о курсе

Полный курс по сетевым технологиям

Полный курс по сетевым технологиям от Мерион Нетворкс - учим с нуля сетевых инженеров и DevOPS специалистов

Подробнее о курсе

Python программист с нуля

Стань разработчиком на одном из самых популярных языков программирования - Python

Подробнее о курсе

Онлайн-курс по кибербезопасности

Полный курс по кибербезопасности от Мерион Нетворкс - учим с нуля специалистов по информационной безопасности. Пора стать безопасником!

Подробнее о курсе

Java-разработчик с нуля

Освойте backend-разработку и программирование на Java, фреймворки Spring и Maven, работу с базами данных и API

Подробнее о курсе

Этичный хакинг

Научись работать с Kali Linux, изучи самые распространенные уязвимости, разверни виртуальную лабораторию для пентестинга

Подробнее о курсе

Еще по теме:

DevOps

Полезно

10 AI промптов для DevOps инженеров, которые ускорят работу в 10 раз

10 крутых AI промптов для быстрого решения проблем Kubernetes, CI/CD, Terraform и мониторинга

DevOps

Теория

Что такое микросервисы?

Наверняка ты постоянно слышишь про микросервисы. Микросервисы то, микросервисы сё, переписали все на микросервисы, развернули микросервисы в контейнерах. А че это вообще такое? Ща все объясним.

DevOps

Полезно

Делаем домашнюю DevOps-лабораторию на ноутбуке без затрат

О том, как создать локальную DevOps-лабораторию с Docker, Kubernetes, Vagrant, Ansible и Terraform на обычном ноутбуке без затрат, смс, и прочего.

DevOps

Полезно

Git Flow: что это и как работает

Git Flow - это специальная система ветвления для Git. Она помогает команде лучше контролировать и добавлять различные версии проекта. В статье рассказываем, как ее использовать.

DevOps

How to

Как проверить логи в Docker?

Мы рассмотрим несколько простых способов, с помощью которых вы можете управлять и отслеживать логи для своих контейнеров.

Комментарии

Получи бесплатный модуль «DevOps-инженер с нуля»

Что такое нормализация базы данных?

узнай больше на курсе

Что такое нормализация базы данных?

Зачем нужна нормализация базы данных?

Избыточность баз данных и аномалии

Основные понятия в нормализации базы данных

Нормальные формы базы данных

Что такое Ключ?

Функциональные зависимости базы данных

Примеры нормализации базы данных. Как нормализовать базу данных?

Пример ненормализованной базы данных

Шаг 1: Первая нормальная форма (1NF)

Шаг 2: Вторая нормальная форма (2NF)

Шаг 3: третья нормальная форма (3NF)

Заключение

Получите бесплатные уроки на наших курсах

узнай больше на курсе

Получи бесплатный модуль
«DevOps-инженер с нуля»