Услуги по созданию ссылок


Исследовательская группа Яндекса совместно с IST Austria и KAUST разработала и публично опубликовала новые методы сжатия больших языковых моделей. Эти методы помогут предприятиям сократить расходы на ИТ до восьми раз. Решение будет полезно компаниям, стартапам и исследователям, работающим с нейронными сетями на собственном оборудовании.

Для обеспечения быстрых и качественных ответов от больших языковых моделей обычно требуется много мощных и дорогих графических процессоров. Решение, предложенное Яндексом, позволяет в несколько раз уменьшить масштаб модели и уменьшить количество необходимых для работы процессоров, тем самым гарантируя работу модели на устройствах с меньшей вычислительной мощностью.

Решение включает в себя 2 инструмента. Первый инструмент уменьшает размер нейронной сети до восьми раз. Второй исправляет ошибки, возникающие при сжатии большой языковой модели.

Эффективность методов сжатия нейронных сетей оценивалась с использованием популярных моделей с открытым исходным кодом: Llama 2, Llama 3, Mistral и других. Метод Яндекса сохраняет в среднем 95% качества ответов нейронной сети, в то время как другие популярные инструменты сохраняют качество от 59% до 90% для тех же моделей.

Доступны новые методы сжатия нейронных сетей — код опубликован по адресу GitHub. Исследователи Яндекса также опубликовали образовательную информацию материалычто поможет разработчикам дополнительно обучать сокращенные нейронные сети для своих сценариев.

Напомним, ранее T-Bank открыл разработчикам доступ к своей языковой модели T-lite.

Источник: пресс-релиз Яндекса





Source link

Юрий из Петропавловск-Камчатского заказал диаграмму
Лев из Череповца заказал консультацию с нами
Марк из Ханты-Мансийска заказал размещение статей на wiki сайтах