Граф знаний
Граф знаний — это структурированная база данных, в которой сущности реального мира (люди, места, понятия) связаны между собой смысловыми отношениями. Используется поисковиками, голосовыми ассистентами и рекомендательными системами.
Что это
Граф знаний (Knowledge Graph) — это база данных, в которой информация представлена не в виде таблиц, а в виде сети: узлы — это сущности (человек, город, фильм, компания), а рёбра — смысловые связи между ними ("работает в", "родился в", "является частью"). Такая структура позволяет машине не просто хранить факты, но и понимать контекст: что Илон Маск — основатель Tesla, Tesla — автомобильная компания, а её штаб-квартира находится в Остине. Граф знаний — это способ дать компьютеру что-то похожее на человеческое понимание мира.
Зачем это нужно
Обычные реляционные базы данных хорошо хранят структурированные записи, но плохо справляются с вопросами вроде «кто ещё снимался в фильмах того же режиссёра, что и этот актёр?». Граф знаний решает именно такие задачи — он позволяет traversal-запросы: идти по цепочке связей и находить неочевидные отношения. Именно поэтому Google запустил свой Knowledge Graph в 2012 году — чтобы поисковик мог отвечать на вопросы, а не просто подбирать страницы по ключевым словам. Сегодня графы знаний лежат в основе голосовых ассистентов, рекомендательных систем и корпоративных аналитических платформ.
Как это работает
В основе графа знаний лежит модель триплетов: субъект — предикат — объект. Например: (Москва) — [является столицей] — (России). Такие триплеты записываются в формате RDF (Resource Description Framework) или хранятся в специализированных графовых СУБД — Neo4j, Amazon Neptune, Wikidata. Граф может содержать миллиарды триплетов: Wikidata, открытый граф знаний от Wikimedia, в 2024 году содержит более 100 миллионов элементов. Поверх хранилища строится онтология — формальное описание классов сущностей и допустимых связей между ними. Это позволяет системе делать логические выводы: если A является частью B, а B является частью C, то A является частью C.
Примеры применения
- Google Knowledge Graph — блок справа в поисковой выдаче с фото, датами и фактами о персоне или месте. Именно он отвечает на вопрос «Сколько лет Кристофу Нолану?» прямо на странице результатов.
- Голосовые ассистенты (Алиса, Siri, Google Assistant) — используют граф знаний, чтобы понимать многошаговые вопросы: «Кто режиссёр фильма с Леонардо ДиКаприо, который вышел в 2010 году?»
- Рекомендательные системы в стриминге — Netflix и Spotify строят графы, где связаны жанры, авторы, настроения и поведение пользователей, чтобы предлагать релевантный контент.
- Корпоративные knowledge graph — банки и страховые компании используют их для выявления мошенничества: граф позволяет увидеть, что несколько клиентов связаны через один адрес или телефон.
- Медицина и фармацевтика — графы знаний связывают болезни, симптомы, препараты и побочные эффекты. IBM Watson for Drug Discovery использовал этот подход для поиска новых применений существующих лекарств.
Связанные понятия
- Онтология — формальная схема классов и отношений, на которой строится граф
- RDF и SPARQL — стандарт хранения триплетов и язык запросов к ним
- Графовая база данных — СУБД, оптимизированная для хранения и обхода графов (Neo4j, TigerGraph)
- Семантический веб — концепция Тима Бернерса-Ли о машиночитаемом интернете, предшественник современных графов знаний
- RAG (Retrieval-Augmented Generation) — архитектура LLM, в которой граф знаний используется как внешний источник фактов для языковой модели
- Векторная база данных — альтернативный подход к хранению знаний, основанный на эмбеддингах, а не на явных связях
Частые заблуждения
Граф знаний часто путают с любой графовой базой данных — это не одно и то же. Графовая БД — это технология хранения, граф знаний — это семантически размеченная модель мира с онтологией и логическими правилами. Ещё одно заблуждение: что граф знаний и нейросеть — конкуренты. На практике они дополняют друг друга: LLM-модели умеют генерировать текст, но «галлюцинируют» факты; граф знаний даёт им верифицированную фактическую базу. Именно поэтому в 2023–2024 годах связка «LLM + Knowledge Graph» стала одним из главных архитектурных паттернов в корпоративном ИИ.