

Изследователи от Университета на Хонг Конг и екипът Kling на Kuaishou съвместно предложиха MemFlow, нов подход, предназначен да се справи с дългогодишните предизвикателства на разпадането на паметта и несъответствието на разказа в дълги видеоклипове, генерирани от AI.
MemFlow въвежда динамичен, адаптивен механизъм за дългосрочна памет за поточно предаване, който значително подобрява кохерентността на разказа и визуалната последователност в разширените видео последователности. Традиционните методи често разчитат на строги стратегии за памет, което води до отклонение на идентичността или объркване на характера с течение на времето.
Решението включва два основни компонента: Наративно-адаптивна памет (NAM), която извлича най-подходящия исторически визуален контекст въз основа на текущата подкана, и Активиране на оскъдна памет (SMA), което селективно активира ключова информация, за да поддържа изчислителната ефективност. В сравнителни тестове MemFlow постигна общ резултат за качество на VBench-Long от 85,02 и естетически резултат от 61,07, като същевременно поддържа стабилна дългосрочна семантична консистенция. Съгласуваността на обекта достигна 96,60, а изводите в реално време постигнаха 18,7 FPS на един NVIDIA H100 GPU, подчертавайки както подобренията в качеството, така и ефективността.
Източник: liangziwei
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта