Новые ИИ-проекты с открытым исходным кодом на базе больших языковых моделей набирают огромную популярность за считаные месяцы. Но, как сообщает Dark Reading, уровень их безопасности оставляет желать лучшего. Тем более что из тысяч действующих версий наиболее популярны одни из самых молодых вариантов.
Как выяснила компания Rezilion, занимающаяся проектами в сфере кибербезопасности, использующие решения на основе LLM компании неизбежно ставят свой бизнес под угрозу. Так, проанализировав 50 самых популярных проектов на базе LLM на GitHub, компания пришла к интересным выводам. Для оценки использовался инструмент Scorecard от Open Source Security Foundation, который учитывает различные характеристики проектов, от числа уязвимостей до того, как осуществляется поддержка, а также другие факторы.
Известно, что с момента публичного дебюта ChatGPT, на GitHub появились более 30 тыс. проектов, использующих GPT-3.5, причём они активно интегрируются в самые разные программные решения. Исследователи составили «карту» популярных проектов, где по оси y отмечался уровень их популярности, а по оси x — уровень безопасности на основе рейтинга OpenSSF Scorecard. В итоге ни один из оценивавшихся проектов не набрал больше 6,1 балла из 10 возможных. Другими словами, все самые популярные решения на основе LLM связаны с высоким уровнем риска, а средний балл и вовсе составил 4,6.
Примечательно, что самый популярный проект Auto-GPT, набравший на GitHub почти 140 тыс. звёзд в местном рейтинге, появился в репозитории меньше трёх месяцев назад и получил рейтинг Scorecard 3,7 — решение является чрезвычайно рискованным. Как заявляют в Rezilion, для новых проектов характерен экспоненциальный рост популярности, но разработчикам и службам информационной безопасности стоит осознавать риски, связанные с применением подобных решений.
По данным экспертов организации, когда речь идёт о новом проекте, невозможно достоверно прогнозировать, будет ли он эволюционировать и поддерживаться. Быстро достигнув пика популярности, многие проекты сохраняют невысокий уровень безопасности — когда исследователи оценили соотношение возраста проектов и их уровня в Scorecard, выяснилось, что чаще всего встречались популярные разработки возрастом два месяца и рейтингом 4,5–5 баллов из 10.
Источник: