30 июля 2024

1 минута

Что такое векторная база данных?

Векторная база данных хранит фрагменты информации в виде векторов. Они объединяют в группы связанные элементы, позволяя, таким образом, выполнять поиск на основе сходств и создавать мощные модели ИИ.

узнай больше на курсе

Python программист с нуля

Стань разработчиком на одном из самых популярных языков программирования - Python

Подробнее о курсе

Java-разработчик с нуля

Освойте backend-разработку и программирование на Java, фреймворки Spring и Maven, работу с базами данных и API

Подробнее о курсе

C# разработчик с нуля

На курсе ты освоишь основы программирования на C#, включая синтаксис, объектно-ориентированное программирование и асинхронное программирование.

Подробнее о курсе

Что такое векторная база данных?

Векторная база данных – это набор данных, который хранится в математической форме. Они упрощают модели машинного обучения за счет того, что запоминают то, как использовались предыдущие входные данные. За счет этого они позволяют использовать модели машинного обучения для сложного поиска, рекомендаций и генерации текста. Данные можно идентифицировать, исходя из показателей сходства, а не точных совпадений. Таким образом, компьютерная модель может понимать данные в соответствии с контекстом.

Когда покупатель заходит в обувной магазин, продавец может предложить ему модель обуви, похожу на ту, которую он предпочитает. Таким же образом при совершении покупок через Интернет, магазин может предлагать похожие товары (например, под заголовком «Также покупают…»). Векторные базы данных позволяют моделям машинного обучения находить похожие объекты точно так же, как продавец может найти подобную модель обуви, а интернет-магазин может предложить похожие товары. (По сути, интернет-магазин может использовать для этой цели именно такую модель машинного обучения.)

Резюмируя, скажем, что векторные базы данных позволяют компьютерным программам проводить сравнения, выявлять взаимосвязи и понимать контекст. Это, в свою очередь, позволяет создавать передовые ИИ-программы, такие как большие языковые модели (LLM).

Вполне вероятно, что документы, расположенные в правом верхнем углу этой довольно простой векторной базы данных, похожи друг на друга.

Что такое вектор?

Вектор – это массив числовых значений, который указывает на расположение плавающей точки в нескольких измерениях.

Говоря более простым языком, вектор – это список чисел, например, {12, 13, 19, 8, 9}. Эти числа обозначают расположение в пространстве точно так же, как номер строки и столбца обозначает определенную ячейку в электронной таблице (например, В7).

Как работает векторная база данных?

Каждый вектор в векторной базе данных соответствует какому-то объекту или элементу, будь то слово, изображение, видео, фильм, документ или любой другой фрагмент данных. Скорее всего, эти векторы буду довольно длинными и сложными, так как они будут указывать на расположение каждого объекта в десятках или даже сотнях измерений.

Например, векторная база данных фильмов может располагать фильмы по таким измерениям (параметрам), как продолжительность фильма, жанр, год выпуска, родительский контроль, общее количество актеров, общее количество зрителей и т.д. Если эти векторы будут созданы правильно, то в итоге в рамках этой базы данных похожие фильмы с большой вероятностью будут объединены в группы.

Как использовать векторную базу данных?

Поиск сходств и семантический поиск: с помощью векторных баз данных приложения могут объединять подходящие элементы вместе. Векторы, находящиеся в одной группе, похожи и, скорее всего, как-то связаны друг с другом. Пользователи, таким образом, могут выполнять поиск необходимой им информации (например, поиск изображения). Кроме того, приложения могут:
Рекомендовать похожие товары
Предлагать песни, фильмы и телешоу
Предлагать изображения и видео
Машинное обучение и глубокое обучение: способность объединять подходящие информационные единицы позволяет создавать модели машинного обучения (и глубокого обучения), которые могут решать сложные когнитивные задачи.
Большие языковые модели (LLM) и генеративный ИИ: в основе LLM, подобных тем, что используются в ChatGPT и Bard, лежит контекстный анализ текста, который стал возможен за счет векторных баз данных. Сопоставляя слова, предложения и общий смысл вместе, LLM способны понимать естественный язык и даже генерировать текст.

Что такое вложения?

Вложения – это векторы, которые генерируются нейронными сетями. Обычная векторная база данных для модели глубокого обучения состоит именно из вложений. Как только нейронная сеть будет хорошо обучена, она сможет самостоятельно генерировать вложения, и их не придется создавать вручную. После эти вложения можно использовать для поиска сходств, контекстного анализа, генеративного ИИ, о которых говорилось выше, и т.д.

Какие есть преимущества у векторных баз данных?

Сам по себе запрос к модели машинного обучения, у которой нет векторной базы данных, нельзя назвать ни быстрым, ни выгодным. Модели машинного обучения не способны запомнить ничего, кроме тех данных, на которых они были обучены. Они всегда должны быть в тексте (именно так работают многие простые чат-боты).

Любая передача текста запроса в модель происходит крайне медленно, так как, как правило, в нем довольно много данных, и это обходится довольно дорого, так как данные перемещаются, а вычислительная мощность расходуется снова и снова, когда модель начинает анализировать одни и те же данные. В действительности большая часть API машинного обучения, скорее всего, ограничены в объеме данных, которые они могут принять за раз.

Вот тут-то очень кстати приходится векторная база данных: набор данных проходит через модель всего один раз (или с какой-то периодичностью по мере появления изменений в нем), а вложения этих данных (для этой модели) сохраняются в векторной базе данных.

Это экономит уйму времени, которое раньше затрачивалось на обработку. Это делает возможным создание пользовательских приложений на основе семантического поиска, классификации и обнаружении аномалий, так как результаты приходят за несколько десятков миллисекунд, не дожидаясь, пока модель обработает весь набор данных.

Что касается запросов, разработчики запрашивают у модели машинного обучение представление (вложение) именно для этого запроса. После чего это вложение можно передать в векторную базу данных, и она сможет вернуть похожие вложения, которые уже прошли через модель. Затем эти вложения, будь то URL-адрес страницы, ссылка на изображение или артикул товара, можно сопоставить с их исходным содержимым.

Подведем итог: векторные базы данных масштабируются, работают быстро, и, кроме того, они более экономичны, нежели обычные запросы к моделям машинного обучения без них.

базыданных

LLM

Получите бесплатные уроки на наших курсах

Все курсы

узнай больше на курсе

Python программист с нуля

Стань разработчиком на одном из самых популярных языков программирования - Python

Подробнее о курсе

Java-разработчик с нуля

Освойте backend-разработку и программирование на Java, фреймворки Spring и Maven, работу с базами данных и API

Подробнее о курсе

C# разработчик с нуля

Подробнее о курсе

Фронтенд-разработчик с нуля

Погрузитесь в мир веб-разработки, освоив основные инструменты работы: HTML, CSS, JavaScript

Подробнее о курсе

Разработка приложений на Flutter и Dart

Научись создавать кроссплатформенные приложения на Flutter, освой язык Dart

Подробнее о курсе

Автоматизированное тестирование на Python

Изучите автоматизацию тестирования на Python чтобы стать востребованным специалистом

Подробнее о курсе

Еще по теме:

Разработка

Теория

Что такое Django?

2005 год. В мире технологий появляется Django - фреймворк, который обещал изменить всё. Модель, шаблон, представление - три слова, которые одновременно вдохновляли и пугали новичков.

Разработка

Теория

Что такое код-ревью?

Бывало у тебя такое, что какой-нибудь сайт упал и вставать не собирается? Это очень неприятно, особенно, когда после этого вся работа просто встаёт. А это всё потому что кто-то не делал код-ревью. Сейчас объясним что это такое.

Разработка

Теория

Что такое TypeScript?

Ну рассказывай, что ты слышал про TypeScript? Ладно-ладно, не пугайся, это не новый язык программирования, который надо учить с нуля, а по сути, прокаченный, как одна из твоих рук, джаваскрипт.

Разработка

Полезно

Как просто и без боли начать программировать?

А что если мы скажем, что есть способы легко и без боли начать программировать? А потом стать крутым разработчиком, работать в свободном графике и в любое время кушать питсу? Подробнее в статье!

Разработка

Полезно

Делаем код-ревью без конфликтов и боли

Делаем код-ревью корректно - с уважением, эффективностью и улучшением качества, не раздражая коллег

Комментарии

Это все твое! Бесплатный урок по курсу «Python программист с нуля», а также:

Что такое векторная база данных?

узнай больше на курсе

Что такое векторная база данных?

Что такое вектор?

Как работает векторная база данных?

Как использовать векторную базу данных?

Что такое вложения?

Какие есть преимущества у векторных баз данных?

Получите бесплатные уроки на наших курсах

узнай больше на курсе