Impfung durch Feinabstimmung
Kürzlich wurden mehrere Datensätze erstellt, um die Sprödigkeit von Modellen aufzudecken, die auf vorhandenen Benchmarks trainiert wurden. Obwohl die Modellleistung bei diesen Herausforderungsdatensätzen im Vergleich zum ursprünglichen Benchmark deutlich geringer ist, ist unklar, welche besonderen Schwächen sie aufdecken. Beispielsweise kann ein Problem-Datensatz schwierig sein, weil er auf Phänomene abzielt, die aktuelle Modelle nicht erfassen können, oder weil er einfach blinde Flecken im spezifischen Trainingssatz eines Modells ausnutzt. Wir führen „Inoculation by Effective-Tuning“ ein, eine neue Analysemethode zur Untersuchung von Problem-Datensätzen, indem wir Modelle (den metaphorischen Patienten) einer kleinen Datenmenge aus dem Problem-Datensatz (einem metaphorischen Pathogen) aussetzen und bewerten, wie intestine sie sich anpassen können. Wir wenden unsere Methode an, um die NLI-Stresstests (Naik et al., 2018) und den Adversarial SQuAD-Datensatz (Jia und Liang, 2017) zu analysieren. Wir zeigen, dass einige dieser Datensätze nach leichter Exposition keine Herausforderung mehr darstellen, während andere weiterhin schwierig sind. Unsere Ergebnisse deuten darauf hin, dass Fehler bei Problem-Datensätzen zu sehr unterschiedlichen Schlussfolgerungen über Modelle, Trainingsdatensätze und die Problem-Datensätze selbst führen können. …
Transformationsinvariantes graphbasiertes Netzwerk (TIGraNet)
Das Erlernen transformationsinvarianter Darstellungen visueller Daten ist ein wichtiges Downside in der Pc Imaginative and prescient. Tiefe Faltungsnetzwerke haben bemerkenswerte Ergebnisse für Bild- und Videoklassifizierungsaufgaben gezeigt. Allerdings haben sie bei der Klassifizierung von Bildern, die geometrische Transformationen durchlaufen, nur begrenzte Erfolge erzielt. In dieser Arbeit stellen wir ein neuartiges Transformation Invariant Graph-based Community (TIGraNet) vor, das graphbasierte Merkmale lernt, die von Natur aus invariant gegenüber isometrischen Transformationen wie Rotation und Translation von Eingabebildern sind. Insbesondere werden Bilder als Signale in Diagrammen dargestellt, was es ermöglicht, klassische Faltungs- und Pooling-Schichten in tiefen Netzwerken durch spektrale Graphenfaltung und dynamische Graph-Pooling-Schichten zu ersetzen, die zusammen zur Invarianz der isometrischen Transformation beitragen. Unsere Experimente zeigen eine hohe Leistung bei gedrehten und verschobenen Bildern aus dem Testsatz im Vergleich zu klassischen Architekturen, die sehr empfindlich auf Transformationen in den Daten reagieren. Die inhärenten Invarianzeigenschaften unseres Frameworks bieten entscheidende Vorteile, wie z. B. eine erhöhte Widerstandsfähigkeit gegenüber Datenschwankungen und eine nachhaltige Leistung mit begrenzten Trainingssätzen. Unser Code ist on-line verfügbar. …
Video-Transformator-Netzwerk (VTN)
In dieser Arbeit stellen wir einen neuen effizienten Ansatz zur Erkennung menschlicher Handlungen vor, der als Video Transformer Community (VTN) bezeichnet wird. Er nutzt die neuesten Fortschritte in den Bereichen Pc Imaginative and prescient und Verarbeitung natürlicher Sprache und wendet sie auf das Verständnis von Movies an. Die vorgeschlagene Methode ermöglicht es uns, leichte CNN-Modelle zu erstellen, die mit nur einer RGB-Monokamera und einer Allzweck-CPU eine hohe Genauigkeit und Echtzeitgeschwindigkeit erreichen. Darüber hinaus erklären wir, wie die Genauigkeit verbessert werden kann, indem mehrere Modelle mit unterschiedlichen Modalitäten zu einem einzigen Modell zusammengefasst werden. Wir führen einen Vergleich mit modernsten Methoden durch und zeigen, dass unser Ansatz bei bekannten Datensätzen zur Aktionserkennung mit den meisten von ihnen mithalten kann. Wir vergleichen die Inferenzzeit der Modelle mithilfe des modernen Inferenzrahmens und argumentieren, dass unser Ansatz im Hinblick auf den Kompromiss zwischen Geschwindigkeit und Genauigkeit mit anderen Methoden mit 56 FPS auf der CPU intestine abschneidet. Die Modelle und der Trainingscode sind verfügbar. …
Schwach überwachte zeitliche Aktivitätslokalisierung (W-TALC)
Die meisten Methoden zur Aktivitätslokalisierung in der Literatur leiden unter der Belastung durch die Anforderung einer rahmenweisen Annotation. Das Lernen aus schwachen Etiketten könnte eine mögliche Lösung zur Reduzierung dieses manuellen Etikettierungsaufwands sein. In den letzten Jahren kam es zu einem erheblichen Zustrom getaggter Movies im Web, die als reichhaltige Quelle für schwach überwachte Trainingsdaten dienen können. Konkret können die Korrelationen zwischen Movies mit ähnlichen Tags genutzt werden, um die Aktivitäten zeitlich zu lokalisieren. Um dieses Ziel zu erreichen, präsentieren wir W-TALC, ein schwach überwachtes Framework zur zeitlichen Aktivitätslokalisierung und -klassifizierung, das nur Labels auf Videoebene verwendet. Das vorgeschlagene Netzwerk kann in zwei Teilnetzwerke unterteilt werden, nämlich das Two-Stream-basierte Characteristic-Extractor-Netzwerk und ein schwach überwachtes Modul, das wir durch die Optimierung zweier komplementärer Verlustfunktionen lernen. Qualitative und quantitative Ergebnisse zu zwei anspruchsvollen Datensätzen – Thumos14 und ActivityNet1.2 – zeigen, dass die vorgeschlagene Methode in der Lage ist, Aktivitäten mit einer feinen Granularität zu erkennen und eine bessere Leistung als aktuelle Methoden auf dem neuesten Stand der Technik zu erzielen. …