Quantiloptionsarchitektur (QUOTA)
In diesem Artikel schlagen wir die Quantile Possibility Structure (QUOTA) zur Erforschung vor, die auf den jüngsten Fortschritten beim verteilten Verstärkungslernen (RL) basiert. Bei QUOTA basiert die Entscheidungsfindung auf Quantilen einer Werteverteilung, nicht nur auf dem Mittelwert. QUOTA bietet eine neue Dimension der Erkundung, indem es sowohl den Optimismus als auch den Pessimismus einer Werteverteilung nutzt. Wir demonstrieren den Leistungsvorteil von QUOTA sowohl in anspruchsvollen Videospielen als auch in physischen Robotersimulatoren. …
Adversarial Multimedia Advice (AMR)
Angesichts der Verbreitung von Multimedia-Inhalten im Net ist die Entwicklung von Empfehlungslösungen, die das reichhaltige Sign in Multimedia-Daten effektiv nutzen können, dringend erforderlich. Aufgrund des Erfolgs tiefer neuronaler Netze beim Repräsentationslernen konzentrierten sich die jüngsten Fortschritte bei Multimedia-Empfehlungen weitgehend auf die Erforschung von Deep-Studying-Methoden zur Verbesserung der Empfehlungsgenauigkeit. Bisher wurden jedoch kaum Anstrengungen unternommen, um die Robustheit der Multimedia-Darstellung und ihren Einfluss auf die Leistung der Multimedia-Empfehlung zu untersuchen. In diesem Artikel beleuchten wir die Robustheit des Multimedia-Empfehlungssystems. Mithilfe des hochmodernen Empfehlungsrahmens und der Deep-Picture-Funktionen zeigen wir, dass das Gesamtsystem nicht strong ist, sodass eine kleine (aber gezielte) Störung des Eingabebilds die Empfehlungsgenauigkeit erheblich verringert. Dies impliziert die mögliche Schwäche des Multimedia-Empfehlungssystems bei der Vorhersage von Benutzerpräferenzen und, was noch wichtiger ist, das Potenzial für Verbesserungen durch Verbesserung seiner Robustheit. Zu diesem Zweck schlagen wir eine neuartige Lösung namens Adversarial Multimedia Advice (AMR) vor, die durch den Einsatz von kontradiktorischem Lernen zu einem robusteren Multimedia-Empfehlungsmodell führen kann. Die Idee besteht darin, das Modell darauf zu trainieren, einen Gegner zu verteidigen, wodurch dem Zielbild Störungen hinzugefügt werden, um die Genauigkeit des Modells zu verringern. Wir führen Experimente zu zwei repräsentativen Multimedia-Empfehlungsaufgaben durch, nämlich der Bildempfehlung und der visuell bewussten Produktempfehlung. Umfangreiche Ergebnisse belegen den positiven Effekt des kontradiktorischen Lernens und belegen die Wirksamkeit unserer AMR-Methode. Quellcodes sind verfügbar in https://…/AMR. …
Algebraisches Subraum-Clustering (ASC)
Algebraic Subspace Clustering (ASC) ist eine einfache und elegante Methode, die auf Polynomanpassung und Differenzierung basiert, um rauschfreie Daten aus einer beliebigen Vereinigung von Unterräumen zu gruppieren. In der Praxis ist ASC jedoch auf gleichdimensionale Unterräume beschränkt, da die Schätzung der Unterraumdimension mithilfe algebraischer Methoden rauschempfindlich ist. In diesem Artikel wird ein neuer ASC-Algorithmus vorgeschlagen, der verrauschte Daten verarbeiten kann, die aus Unterräumen beliebiger Dimensionen stammen. Die Schlüsselideen bestehen darin, (1) an jedem Punkt eine abnehmende Folge von Unterräumen zu konstruieren, die den durch diesen Punkt verlaufenden Unterraum enthalten; (2) die Abstände von jedem anderen Punkt zu jedem Unterraum in der Sequenz zu verwenden, um eine Unterraum-Clusteraffinität zu konstruieren, die alternativen Affinitäten sowohl in der Theorie als auch in der Praxis überlegen ist. Experimente mit dem Hopkins-155-Datensatz zeigen die Überlegenheit der vorgeschlagenen Methode im Hinblick auf spärliche und niedrigrangige Subraum-Clustering-Methoden. …
Rotes Netz
Die semantische Segmentierung in Innenräumen battle schon immer eine schwierige Aufgabe in der Bildverarbeitung. In diesem Artikel schlagen wir eine RGB-D-Relaxation-Encoder-Decoder-Architektur namens RedNet für die semantische RGB-D-Segmentierung in Innenräumen vor. In RedNet wird das Restmodul als Grundbaustein sowohl auf den Encoder als auch auf den Decoder angewendet, und die Sprungverbindung wird verwendet, um die räumlichen Merkmale zwischen Encoder und Decoder zu umgehen. Um die Tiefeninformationen der Szene zu integrieren, wird eine Fusionsstruktur erstellt, die separat Rückschlüsse auf RGB-Bilder und Tiefenbilder zieht und deren Merkmale über mehrere Ebenen hinweg zusammenführt. Um die Parameter des Netzwerks effizient zu optimieren, schlagen wir ein Trainingsschema mit „Pyramidenüberwachung“ vor, das überwachtes Lernen über verschiedene Schichten im Decoder anwendet, um das Downside des Verschwindens von Gradienten zu bewältigen. Die Versuchsergebnisse zeigen, dass das vorgeschlagene RedNet (ResNet-50) eine hochmoderne mIoU-Genauigkeit von 47,8 % im SUN RGB-D-Benchmark-Datensatz erreicht. …