Pixel Transformer (PiT) – aus der Perspektive der induktiven Vorspannung
Meta AI veröffentlichte letzte Woche den technischen Bericht auf arXiv: „Ein Bild ist mehr wert als 16*16 Patches“. Anstatt eine neuartige Methode vorzuschlagen, beantwortete der technische Bericht eine seit langem gestellte Frage: Ist es sinnvoll, Pixel anstelle von Patches als Eingabetoken zu verwenden? Und wenn ja, warum?
Das Papier vertrat die Perspektive der Induktive Verzerrung der Lokalität. Nach Okay. Murphys bekanntem Buch zum maschinellen Lernen, induktive Vorspannung ist der „Annahmen über die Artwork der Datenverteilung.“ In der frühen Ära des „nicht-tiefen Lernens“ struggle die induktive Verzerrung eher „merkmalsbezogen“ und resultierte aus den manuellen Merkmalen, die für bestimmte Aufgaben entwickelt wurden. Diese induktive Verzerrung struggle keine schlechte Sache, insbesondere für bestimmte Aufgaben, bei denen sehr gutes Vorwissen von menschlichen Experten gewonnen wird, was die entwickelten Merkmale sehr nützlich macht. Aus der Generalisierungsperspektive sind die entwickelten Merkmale jedoch sehr schwer auf universelle Aufgaben wie die allgemeine Bildklassifizierung und -segmentierung zu verallgemeinern.
Aber über den Function Bias hinaus enthält die Architektur selbst auch einen induktiven Bias. Das ViT ist ein großartiges Beispiel, das weniger induktiven Bias zeigt als CNN-Modelle in Bezug auf Architekturhierarchie, Ausbreitungsgleichmäßigkeit, Darstellungsskala und Aufmerksamkeitslokalität. Eine ausführliche Diskussion finden Sie in meinem vorherigen Medium-Beitrag.. Dennoch bleibt ViT eine spezielle Artwork induktiver Voreingenommenheit — Lokalität. Wenn der ViT eine Folge von Patch-Tokens verarbeitet, werden die Pixel innerhalb desselben Patches vom Modell natürlich anders behandelt als die aus anderen Patches. Und daher kommt die Lokalität.
Ist es additionally möglich, die induktive Verzerrung der Lokalität weiter zu beseitigen? Die Antwort ist ja. PiT schlug vor, den „Pixelsatz“ als Eingabe mit verschiedenen Strategien zur Positionseinbettung (PE) zu verwenden: Sinus-Cosinus, gelernt und keine. Es zeigte eine bessere Leistung als ViT bei überwachten, selbstüberwachten und Generierungsaufgaben. Die vorgeschlagene Pipeline ist in der folgenden Abbildung dargestellt.
Die Idee scheint einfach und unkompliziert, und die Autoren behaupten, dass sie hier „keine neue Methode einführen“. Dennoch zeigt PiT großes Potenzial. Bei überwachten Klassifizierungsaufgaben mit CIFAR-100 und ImageNet (reduzierte Eingabegröße auf 28*28) erhöhte sich die Klassifizierungsgenauigkeit im Vergleich zu ViT um mehr als 2 %. Siehe die Tabelle unten.
Ähnliche Verbesserungen wurden auch bei selbstüberwachten Lernaufgaben und Bildgenerierungsaufgaben beobachtet. Darüber hinaus zeigten die Autoren auch eine Tendenz zu einer Leistungssteigerung bei der Reduzierung der Patchgröße von 8*8 auf 1*1 (einzelner Pixel), wie unten dargestellt:
In Bezug auf die Positionskodierung.
Wie in dieses ForschungspapierPositionskodierung ist eine Voraussetzung in transformerbasierten Modellen für die Reihenfolge der Eingabetoken und die Verbesserung der Genauigkeit. Das PiT zeigt jedoch, dass selbst nach dem Weglassen des PE die Modellleistung nur minimal abnimmt:
Warum die Positionskodierung fallenlassen? Nicht nur, weil das Fallenlassen der Positionskodierung eine gute Reduzierung des Lokalitätsbias bedeutet. Wenn wir die Berechnung der Selbstaufmerksamkeit verteilt betrachten, wird dies den geräteübergreifenden Kommunikationsaufwand erheblich reduzieren, was wir im nächsten Abschnitt ausführlich besprechen werden.