ResearchHugging Face PapersJun 22, 01:25 PM

Small vision-language models improve recognition on low-power devices

Summary

The paper credits distillation data quality and visual encoder compression for making on-device multimodal apps more practical.

Region

Global

Heat Score