Исследовательская группа Яндекса совместно с IST Austria и KAUST разработала и публично опубликовала новые методы сжатия больших языковых моделей. Эти методы помогут предприятиям сократить расходы на ИТ до восьми раз. Решение будет полезно компаниям, стартапам и исследователям, работающим с нейронными сетями на собственном оборудовании.
Для обеспечения быстрых и качественных ответов от больших языковых моделей обычно требуется много мощных и дорогих графических процессоров. Решение, предложенное Яндексом, позволяет в несколько раз уменьшить масштаб модели и уменьшить количество необходимых для работы процессоров, тем самым гарантируя работу модели на устройствах с меньшей вычислительной мощностью.
Решение включает в себя 2 инструмента. Первый инструмент уменьшает размер нейронной сети до восьми раз. Второй исправляет ошибки, возникающие при сжатии большой языковой модели.
Эффективность методов сжатия нейронных сетей оценивалась с использованием популярных моделей с открытым исходным кодом: Llama 2, Llama 3, Mistral и других. Метод Яндекса сохраняет в среднем 95% качества ответов нейронной сети, в то время как другие популярные инструменты сохраняют качество от 59% до 90% для тех же моделей.
Доступны новые методы сжатия нейронных сетей — код опубликован по адресу GitHub. Исследователи Яндекса также опубликовали образовательную информацию материалычто поможет разработчикам дополнительно обучать сокращенные нейронные сети для своих сценариев.
Напомним, ранее T-Bank открыл разработчикам доступ к своей языковой модели T-lite.
Источник: пресс-релиз Яндекса