В последние годы искусственный интеллект (ИИ) и модели глубокого обучения быстро развивались, становясь легкодоступными. Это позволило людям, даже не имеющим специальных знаний, выполнять различные задачи с ИИ. Среди этих моделей генеративно-состязательные сети (GAN) выделяются своей выдающейся производительностью в создании новых экземпляров данных с теми же характеристиками, что и обучающие данные, что делает их особенно эффективными для создания изображений, музыки и текста.
GAN состоят из двух нейронных сетей , а именно генератора, который создает новые распределения данных, начиная со случайного шума, и дискриминатора, который проверяет, является ли сгенерированное распределение данных «реальным» (соответствующим обучающим данным) или «поддельным». По мере обучения генератор совершенствуется в генерации реалистичных распределений, а дискриминатор — в идентификации сгенерированных данных как поддельных.
GAN используют функцию потерь для измерения различий между поддельными и реальными распределениями. Однако этот подход может вызывать такие проблемы, как исчезновение градиента и нестабильное обучение, напрямую влияющие на стабильность и эффективность. Несмотря на значительный прогресс в улучшении GAN, включая структурные модификации и корректировки функции потерь, такие проблемы, как исчезновение градиента и коллапс мод, когда генератор выдает ограниченное разнообразие, продолжают ограничивать их применимость.
Для решения этих проблем группа исследователей под руководством доцента Минхёка Ли из Школы электротехники и электроники в Университете Чунг-Анг, Республика Корея, разработала новую стратегию. «Представьте, что вы обучаете художника рисовать пейзажи. Последовательное руководство может привести к тому, что он будет создавать похожие сцены, явление, называемое коллапсом мод в машинном обучении. Чтобы предотвратить это, наша модель PMF-GAN совершенствует возможности дискриминатора, наказывая генератор за создание слишком похожих выходных данных, тем самым способствуя разнообразию», — объясняет доктор Ли.
Их результаты были опубликованы в журнале Applied Soft Computing в октябре 2024 года.
Фреймворк PMF-GAN вводит два ключевых усовершенствования. Во-первых, он использует оптимизацию ядра для улучшения возможностей дискриминатора, предлагая значительное преимущество в решении проблем коллапса модели и исчезновения градиента. Ядра — это математические функции, которые преобразуют данные в более многомерное пространство, что упрощает обнаружение закономерностей даже в сложных данных. Выходные данные дискриминатора обрабатываются с помощью функций ядра, производя оценку плотности ядра (KDE).
Во-вторых, PMF-GAN применяет математический метод, называемый преобразованием гистограммы, к выходным данным KDE, что позволяет проводить более интуитивный анализ результатов. Во время обучения модель минимизирует разницу между преобразованными ядром-гистограммой поддельными и реальными распределениями, меру, называемую расстоянием PMF.
В частности, этот подход позволяет использовать различные математические функции расстояния и функции ядра. Такая гибкость позволяет адаптировать PMF-GAN к различным типам данных и целям обучения. Кроме того, PMF-GAN можно интегрировать в существующие улучшенные архитектуры GAN для ещё большей производительности.
В экспериментах PMF-GAN превзошла несколько базовых моделей с точки зрения визуального качества и метрик оценки в нескольких наборах данных. Для набора данных Animal FacesHQ она показала улучшение на 56,9% в оценке начальной точки и на 61,5% в оценке начальной точки по Фреше (FID) по сравнению с обычной моделью WGAN-GP.
«Гибкость и улучшение производительности, представленные PMF-GAN, открывают новые возможности для создания синтетических данных в различных технологических и цифровых областях. В здравоохранении это приведет к более стабильной и разнообразной генерации изображений. Это также позволяет создавать более реалистичные и разнообразные компьютерные визуальные эффекты для фильмов, видеоигр и виртуальной реальности», — отмечает доктор Ли.
«Поскольку контент, создаваемый ИИ, становится все более распространенным в нашей повседневной жизни, наш метод улучшает качество и разнообразие контента и гарантирует, что ИИ продолжит оставаться ценным инструментом для человеческого творчества и решения проблем».
Мастер пера, обрабатывает новостную ленту.