Синтетические данные окажутся важным инструментом для моделирования ИИ в будущем, и их популярность определенно растет. Но есть ли обратная сторона?
Согласно исследованию Gartner, к 2024 году почти 60% всех данных в области искусственного интеллекта будут синтетическими. Все больше и больше стартапов ориентированы именно на синтетические данные. Сюда входят стартапы, такие как Mostly.AI , предлагающие генерацию данных с использованием существующих данных, Hazy известен тем, что генерирует финансовые данные, Synthetiac предлагает данные для обработки изображений, а также многие другие, такие как Datomize, SynthesisAI и SkyengineAI .
Синтетические данные окажутся важным инструментом для моделирования ИИ в будущем, и их популярность определенно растет. Эти данные особенно полезны в области финансов, классификации изображений и компьютерного зрения, таких как автономные транспортные средства. Но есть ли обратная сторона?
Нехватка данных, по словам разработчиков AI/ML, является одной из главных причин, препятствующих развитию дальнейших моделей ИИ. Данные, несомненно, являются одним из наиболее важных компонентов для создания генеративных моделей ИИ, и, что интересно, ответом может быть генеративный ИИ, который подпитывает модели ИИ большим количеством данных.
Вопрос в том, насколько «проблема данных» связана с количеством и качеством данных? Чтобы справиться с этим дефицитом или количеством данных, люди переходят от доступа и использования реальных данных к использованию синтетических данных. В двух словах, синтетические данные — это искусственно сгенерированные данные математически или статистически, которые кажутся близкими к реальным данным. Это также увеличивает объем данных, что, в свою очередь, повышает точность каждой модели и устраняет все существующие недостатки в данных. Есть много положительных причин для привлечения синтетических данных, таких как конфиденциальность данных. Практически нет опасений по поводу конфиденциальности данных с синтетическими данными, поскольку они не связаны ни с одним человеком в реальном мире.
Слишком искусственный
В ветке Reddit разработчики обсуждают плюсы и минусы синтетических данных. Пользователь отмечает, что «мы стоим на краю мира, где многие технологии, которые нас окружают, могут быть созданы не в соответствии с реальностью, а в соответствии с тем, какой реальность представляет себе машина».
Хотя синтетические данные могут показаться панацеей, ссылаясь на проблемы конфиденциальности и безопасности данных, они сопряжены со своими собственными проблемами. Во-первых, синтетические данные зависят от реальных данных с точки зрения качества. Существует высокая вероятность того, что данные, сгенерированные с использованием предвзятых и неполных данных, могут работать еще хуже. Тот факт, что он сам по себе «синтетический», означает, что он может быть крайне ненадежным. Более того, реальные данные состоят из выбросов, которые могут быть полезны для некоторых моделей.
Одна из причин роста популярности синтетических данных заключается в том, чтобы устранить предвзятость, которая присутствует в небольших наборах данных. Несмотря на то, что большие наборы данных могут содержать данные низкого качества, что потребует более тонкой настройки и больших рабочих нагрузок, синтетические данные не отражают того качества и степени изменчивости, которые присутствуют в реальных данных.
Синтетические данные генерируются с использованием алгоритмов, которые моделируют статистические свойства реальных данных. Хотя он может имитировать распределение и характеристики исходных данных, он никогда не сможет отразить богатство и сложность явлений реального мира, которые он представляет. Следовательно, модели машинного обучения, обученные на синтетических данных, могут быть не такими точными или эффективными, как модели, обученные на реальных данных.
Особенно сложно генерировать точные синтетические данные, потому что этот процесс требует значительного опыта и ресурсов для обеспечения того, чтобы данные были реалистичными и содержательными. Даже небольшие ошибки в процессе генерации могут привести к значительным неточностям. Более того, данные могут вводить в заблуждение, поскольку они построены с использованием набора параметров, что приведет к отсутствию изменчивости и разнообразия.
Не черный и белый
Мы не приводим доводы в пользу постоянного использования данных из реального мира, так как их не хватает по нескольким причинам. Например, когда речь идет о здравоохранении, многие данные просто непригодны для использования из-за соображений конфиденциальности. Но если подумать, насколько надежными могут быть искусственно сгенерированные данные, когда речь идет о такой чувствительной области как здравоохранение?
Когда дело доходит до синтетических данных, возникает много этических проблем. Это правда, что каждый набор данных страдает от предубеждений. Наличие данных без предвзятости — это иллюзия. При включении большего количества параметров «справедливость» данных на самом деле становится более сомнительной. Вместо устранения предубеждений оно может создавать и усиливать новые предубеждения.
Удаление систематических ошибок из набора данных может показаться идеальным способом, но у него есть несколько недостатков. Реальные данные очень динамичны, разнообразны и сложны. Некоторые инженеры машинного обучения считают, что модели, наполненные синтетическими данными, могут стать закрытой системой. Они будут просто «моментальным снимком во времени» и не будут развиваться, создавая «пробел в реальности» в моделях, тем самым делая ИИ более искусственным, чем он, возможно, должен быть.