Создание и обучение мощных ИИ-моделей может обходиться компаниям в сотни миллионов и миллиарды долларов в год. Например, OpenAI в 2024-м намерена потратить на эти цели до $7 млрд. Основная часть затрат приходится на аппаратные ресурсы, включая дорогостоящие ускорители NVIDIA. Но, как сообщает Fortune, существует ещё одна важная статья расходов, которая зачастую упускается из виду — необходимость качественной маркировки данных. Между тем именно эта работа требует всё больших финансовых вложений.
Разметка (или маркировка) — процесс идентификации необработанных данных (изображений, текстовых файлов, видео и пр.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста. Это необходимо для того, чтобы ИИ-модель могла обучаться на таких массивах информации. Разметка данных требуется для различных сценариев использования, включая машинное зрение, обработку естественного языка и распознавание речи.
Разметка уже давно используется, например, при разработке ИИ-моделей для беспилотных автомобилей. Камера фиксирует изображения людей, уличных знаков, транспортных средств и светофоров, а комментаторы-люди помечают снимки такими тегами, как «пешеход», «грузовик» или «знак остановки». Это трудоёмкий и кропотливый процесс, который отнимает много времени и требует значительных финансовых вложений. После выпуска ChatGPT в 2022 году OpenAI подверглась широкой критике за аутсорсинг такой работы: компания наняла кенийских работников менее чем за $2/час.
Нынешние универсальные большие языковые модели (LLM) проходят обучение с подкреплением на основе отзывов (RLHF). В ходе процедуры люди предоставляют качественную обратную связь или ранжируют то, что генерирует ИИ-модель. Такой подход приводит к значительному увеличению затрат. Ещё одна причина роста расходов при маркировке данных — желание компаний включить в процесс обучения корпоративную информацию, такую как сведения о клиентах или внутренние корпоративные документы.
Кроме того, маркировка данных экспертного уровня в таких областях, как юриспруденция, финансы и здравоохранение требует привлечения высококвалифицированных специалистов, оплата труда которых стоит весьма дорого. Поэтому некоторые разработчики перекладывают задачи по разметке данных на сторонние компании, например, Scale AI, которая недавно получила финансирование в размере $1 млрд.
Алекс Ратнер (Alex Ratner), генеральный директор стартапа по маркировке данных Snorkel AI, говорит, что корпоративные клиенты могут тратить миллионы долларов на маркировку и обработку информации. Такие операции в некоторых случаях отнимают до 80% времени и бюджета на ИИ. Причём для сохранения актуальности со временем данные должны периодически дополняться и обрабатываться заново.
Таким образом, разметка, наряду с необходимостью применения дорогостоящего оборудования, становится одной из основных статей расходов при обучении ИИ-моделей. Некоторые компании снижают затраты, используя синтетические данные — то есть данные, сгенерированные самим ИИ. Последние инновации в области ИИ сделали генерацию синтетических данных эффективной и быстрой, что в ряде случаев позволяет отказаться от применения массивов реальной информации. Однако в некоторых случаях это грозит «самоповторами».
Источник: