PiT架构：Transformer处理像素，超越ViT性能

周大发表于 2024-7-9 15:46:38

Meta AI和阿姆斯特丹大学的研究人员挑战了计算机视觉领域的一个基本做法，即图像切割成patch。他们提出的PiT架构使得Transformer可以直接处理单个像素，而非传统的16×16 patch，这一改变在多个任务中提升了模型性能。PiT减少了局部性归纳偏差，增强了模型的通用性，但过长的输入序列可能限制了其应用。这一研究为未来视觉模型的设计提供了新思路。
来源：https://mp.weixin.qq.com/s/o_Wb3Bt9Maipgczokeinrg

页: [1]

靠浦ai课堂's Archiver

PiT架构：Transformer处理像素，超越ViT性能