Google представи на 24 март 2026 г. TurboQuant, алгоритъм за компресиране на паметта при AI изчисления. Компанията заяви, че методът намалява нужната памет за key-value кеша поне 6 пъти и може да ускори inference до 8 пъти при определени натоварвания, без загуба на точност.

Технологията е насочена към key-value кеша, един от основните разходи при големите езикови модели. Това са вектори, които моделите съхраняват по време на работа, за да обработват дълъг контекст.

Ако резултатите се потвърдят при реални внедрявания, операторите на AI системи могат да намалят разходите за памет и да обслужват повече заявки със същия хардуер.

Какво показва Google

Според Google Research TurboQuant комбинира два метода, PolarQuant и Quantized Johnson-Lindenstrauss. Целта е да се намали скритият разход на памет, който често съпътства традиционната квантизация.

Google посочва, че алгоритъмът е разработен за компресиране на key-value кеша при големи езикови модели и за векторно търсене. В публикацията си компанията казва, че е тествала подхода върху дългоконтекстни бенчмаркове с отворени модели, включително Gemma и Mistral.

  • Въпросно-отговорни задачи
  • Генериране на код
  • Обобщаване

Как работи

TurboQuant първо компресира векторите чрез ротация и квантизация на отделни части. След това добавя втори етап, който коригира остатъчната грешка с 1-битов механизъм.

Целта е по-малко памет за кеша и по-малко прехвърляне на данни. Това може да ускори механизма за внимание в модела, особено при дълги заявки, където паметта често е по-голямо ограничение от изчислителните ядра.

Какво казва научната публикация

Свързаната научна работа описва TurboQuant като метод за онлайн векторна квантизация с близка до оптималната степен на изкривяване. Авторите пишат, че при квантизация на key-value кеша са постигнали неутрално качество при 3,5 бита на канал и ограничено влошаване при 2,5 бита.

Това поставя по-точен контекст около твърденията на Google. Публичният блог на компанията говори за нулева загуба на точност в тестовете, а научният текст обвързва резултатите с конкретни битови режими и измервания.

Защо това има значение за пазара

Паметта е сред основните разходи при inference на големи модели. Ако key-value кешът стане многократно по-компактен, доставчиците на AI услуги могат да увеличат дължината на контекста или броя едновременни потребители без пропорционален ръст на хардуера.

  • По-нисък разход за високоскоростна памет
  • По-висока пропускателна способност на същите ускорители
  • По-добра ефективност при дълги разговори и големи документи

Засега Google не обявява масово продуктово внедряване или конкретен търговски график. Представянето е на етап изследване, в момент когато компаниите търсят начини да намалят цената на AI услугите без спад в качеството.

Какво следва

Следващият тест е при реални натоварвания. Разработчиците и доставчиците на инфраструктура ще трябва да покажат дали TurboQuant носи същите ползи при различни модели и различен хардуер.

TurboQuant е насочен към конкретен инфраструктурен проблем, паметта, а не към създаване на по-големи модели на всяка цена.

Това може да се окаже важно за пазара. При AI услугите предимство има не само най-големият модел, но и този, който работи по-евтино, по-бързо и в по-голям мащаб.