Kontext

Zentren, Netzwerkverschwendung können aus dem Nichts erscheinen. Ein plötzlicher Verkehrsschub von verteilten Systemen, Microservices oder KI -Schulungsjobs kann in Sekundenschnelle den Schalterpuffer überwältigen. Das Downside ist nicht nur zu wissen, wann etwas schief geht. Es ist in der Lage zu sehen, dass es kommt, bevor es passiert.
Telemetriesysteme werden häufig zur Überwachung der Netzwerkgesundheit verwendet, die meisten arbeiten jedoch in einem reaktiven Modus. Sie sind erst nach dem Abbau der Leistung eine Überlastung. Sobald ein Hyperlink gesättigt oder eine Warteschlange voll ist, sind Sie bereits über die frühe Diagnose hinaus und die Verfolgung der ursprünglichen Ursache wird deutlich schwieriger.

In-Band-Netzwerk-Telemetrie oder int versucht, diese Lücke zu lösen, indem Stay-Pakete mit Metadaten markiert werden, wenn sie durch das Netzwerk reisen. Es gibt Ihnen eine Echtzeit-Ansicht darüber, wie sich Verkehrsströme, bei denen sich Warteschlangen aufbauen, wo sich die Latenz einbringt, und wie jeder Schalter die Weiterleitung bearbeitet. Es ist ein leistungsstarkes Werkzeug, wenn es sorgfältig verwendet wird. Aber es kommt mit Kosten. Durch das Aktivieren von INT in jedem Paket kann ein ernsthafter Overhead eingebracht und eine Flut von Telemetriedaten in die Kontrollebene schieben, von denen Sie möglicherweise nicht einmal benötigt werden.

Was wäre, wenn wir selektiver sein könnten? Anstatt alles zu verfolgen, prognostizieren wir, wo sich Probleme wahrscheinlich nur für diese Regionen und nur für kurze Zeit ermöglichen. Auf diese Weise erhalten wir eine detaillierte Sichtbarkeit, wenn es am wichtigsten ist, ohne die vollen Kosten für immer zu einer Überwachung zu zahlen.

Das Downside bei der stets On-Telemetrie

Int gibt Ihnen eine leistungsstarke, detaillierte Sicht auf das, was im Netzwerk passiert. Sie können Warteschlangenlängen, Hop-für-Hop-Latenz und Zeitstempel direkt vom Paketpfad verfolgen. Es gibt jedoch Kosten: Diese Telemetriedaten verleihen jedem Paket Gewicht, und wenn Sie sie auf den gesamten Verkehr anwenden, kann sie erhebliche Bandbreite und Verarbeitungskapazität aufnehmen.
Um dies zu umgehen, nehmen viele Systeme Verknüpfungen ein:

Probenahme: Markieren Sie nur einen Bruch (z. B. 1%) von Paketen mit Telemetriedaten.

Ereignisgesteuerte Telemetrie: Schalten Sie int nur ein, wenn bereits etwas Schlimmes passiert, wie eine Warteschlange, die eine Schwelle überquert.

Diese Techniken helfen dabei, den Overhead zu kontrollieren, aber sie vermissen die kritischen frühen Momente eines Verkehrsaufzeigs, den Teil, den Sie am meisten verstehen möchten, wenn Sie versuchen, Verlangsamungen zu verhindern.

Einführung eines prädiktiven Ansatzes

Anstatt auf Symptome zu reagieren, haben wir ein System entwickelt, das Vorlager vor dieser vorhersagen und detaillierte Telemetrie proaktiv aktivieren kann. Die Idee ist einfach: Wenn wir vorhersehen können, wann und wo der Verkehr ansteigt, können wir INT selektiv für diesen Hotspot und nur für das richtige Zeitfenster aktivieren.

Dies hält über Kopf niedrig, bietet Ihnen jedoch eine tiefe Sichtbarkeit, wenn es tatsächlich wichtig ist.

Systemdesign

Wir haben einen einfachen Ansatz entwickelt, der die Netzwerküberwachung intelligenter macht. Es kann vorhersagen, wann und wo tatsächlich eine Überwachung benötigt wird. Die Idee ist nicht, jedes Paket zu probieren und nicht auf eine Überlastung zu warten. Stattdessen möchten wir ein System, das frühzeitig Anzeichen von Schwierigkeiten aufnehmen und die Überwachung von Excessive-Constancy nur dann selektiv ermöglichen könnte, wenn es benötigt wird.

Additionally, wie haben wir das erledigt? Wir haben die folgenden vier kritischen Komponenten für eine eigene Aufgabe erstellt.

Bildquelle: Autor

Datensammler

Wir beginnen damit, Netzwerkdaten zu sammeln, um zu überwachen, wie viele Daten zu jedem Zeitpunkt verschiedene Netzwerkports durchführen. Wir verwenden SFlow für die Datenerfassung, da es hilft, wichtige Metriken zu sammeln, ohne die Netzwerkleistung zu beeinträchtigen. Diese Metriken werden in regelmäßigen Abständen erfasst, um jederzeit eine Echtzeit-Sicht auf das Netzwerk zu erhalten.

Prognosemotor

Die Prognose -Engine ist die wichtigste Komponente unseres Methods. Es wurde mit einem langen Kurzzeitgedächtnismodell (LSTM) erstellt. Wir haben uns mit LSTM gegangen, weil es erfährt, wie sich im Laufe der Zeit Muster entwickeln, was es für den Netzwerkverkehr geeignet ist. Wir suchen hier nicht nach Perfektion. Das Wichtigste ist, ungewöhnliche Verkehrspikes zu erkennen, die normalerweise vor Beginn der Überlastung auftauchen.

Telemetrie -Controller

Der Controller hört auf diese Prognosen und trifft Entscheidungen. Wenn eine vorhergesagte Spike den Alarmschwellenwert kreuzt, würde das System reagieren. Es sendet einen Befehl an die Switches, um in einen detaillierten Überwachungsmodus zu wechseln, jedoch nur für die wichtigsten Ströme oder Anschlüsse. Es weiß auch, wann man sich zurückziehen muss und die zusätzliche Telemetrie ausschaltet, sobald die Bedingungen wieder regular sind.

Programmierbare Datenebene

Das letzte Stück ist der Schalter selbst. In unserem Setup verwenden wir P4 -programmierbare BMV2 -Switches, mit denen wir das Paketverhalten im laufenden Flug anpassen können. Meistens leitet der Schalter den Verkehr einfach weiter, ohne Änderungen vorzunehmen. Wenn der Controller jedoch int einschaltet, beginnt der Schalter, Telemetriemetadaten in Pakete einzubetten, die bestimmte Regeln entsprechen. Diese Regeln werden vom Controller vorangetrieben und lassen uns nur auf den Datenverkehr abzielen, der uns wichtig ist.

Dies vermeidet den Kompromiss zwischen konstanter Überwachung und blindem Abtastung. Stattdessen erhalten wir genau bei Bedarf eine detaillierte Sichtbarkeit, ohne das System den Relaxation der Zeit mit unnötigen Daten zu überfluten.

Experimenteller Setup

Wir haben eine vollständige Simulation dieses Methods mit:

  • Mininet zur Emulation eines Blattwirbelsetznetzes
  • BMV2 (P4 Software program Swap) Für programmierbare Datenebeneverhalten
  • sflow-rt Für Echtzeitverkehrsstatistiken
  • Tensorflow + Keras Für das LSTM -Prognosemodell
  • Python + GRPC + P4Runtime Für die Controller -Logik

Das LSTM wurde auf synthetischen Verkehrsspuren in Mininet mit iPerf geschult. Nach dem Coaching läuft das Modell in einer Schleife, macht alle 30 Sekunden Vorhersagen und speichert Prognosen für den Controller.

Hier ist eine vereinfachte Model der Vorhersageschleife:

For each 30 seconds:
latest_sample = data_collector.current_traffic()
slinding_window += latest_sample
if sliding_window dimension >= window dimension:
forecast = forecast_engine.predict_upcoming_traffic()
if forecast > alert_threshold:
telem_controller.trigger_INT()

Switches reagieren sofort, indem sie Telemetriemodi für bestimmte Ströme schalten.

Warum LSTM?

Wir haben uns mit einem LSTM -Modell entschieden, weil der Netzwerkverkehr in der Regel Struktur hat. Es ist nicht ganz zufällig. Es gibt Muster, die an Tageszeit, Hintergrundbelastung oder Stapelverarbeitungsjobs gebunden sind, und LSTMs sind besonders intestine darin, diese zeitlichen Beziehungen aufzunehmen. Im Gegensatz zu einfacheren Modellen, die jeden Datenpunkt unabhängig voneinander behandeln, kann sich ein LSTM erinnern, was zuvor gekommen ist, und verwenden diesen Speicher, um bessere kurzfristige Vorhersagen zu treffen. Für unseren Anwendungsfall bedeutet dies, frühe Anzeichen eines bevorstehenden Anstiegs zu erkennen, indem Sie sich ansehen, wie sich die letzten Minuten verhalten haben. Wir brauchten es nicht, um genaue Zahlen zu prognostizieren, nur um zu markieren, wenn etwas Abnormales kommt. LSTM gab uns gerade genug Genauigkeit, um eine proaktive Telemetrie auszulösen, ohne Rauschen zu übertreffen.

Auswertung

Wir haben keine groß angelegten Leistungsbenchmarks durchgeführt, aber durch unser Prototyp und unser Systemverhalten unter Testbedingungen können wir die praktischen Vorteile dieses Entwurfsansatzes skizzieren.

Vorlaufvorteil

Einer der Hauptvorteile eines Vorhersagesystems wie diesem ist die Fähigkeit, frühzeitig Ärger zu machen. Reaktive Telemetrielösungen warten normalerweise, bis eine Warteschlangenschwelle gekreuzt wird oder die Leistung verschlechtert, was bedeutet, dass Sie bereits hinter der Kurve stehen. Im Gegensatz dazu erwartet unser Design eine Überlastung auf der Grundlage von Verkehrstrends und aktiviert eine detaillierte Überwachung im Voraus, wodurch den Bedienern ein klareres Bild davon ist, was zu dem Downside geführt hat, nicht nur die Symptome, sobald sie auftreten.

Überwachungseffizienz

Ein Hauptziel in diesem Projekt struggle es, den Overhead niedrig zu halten, ohne die Sicht zu beeinträchtigen. Anstatt den gesamten Verkehr auf den gesamten Verkehr anzuwenden oder sich auf grobe Stichproben zu verlassen, ermöglicht unser System selektiv Excessive-Constancy-Telemetrie für kurze Bursts, und nur wenn Prognosen potenzielle Probleme anzeigen. Obwohl wir die genauen Kosteneinsparungen nicht quantifiziert haben, begrenzt das Design auf natürliche Weise den Overhead, indem wir int fokussiert und kurzlebig bleiben, was statische Probenahme oder reaktives Auslösen nicht mithalten können.

Konzeptioneller Vergleich von Telemetriestrategien

Während wir keine Gemeinkosten aufzeichneten, bestand die Absicht des Designs darin, einen Mittelweg zu finden, was eine tiefere Sichtbarkeit lieferte als Probenahme oder reaktive Systeme, jedoch zu einem Bruchteil der Kosten für immer in der Telemetrie. So vergleicht sich der Ansatz auf hohem Niveau:

Bildquelle: Autor

Abschluss

Wir wollten einen besseren Weg finden, um den Netzwerkverkehr zu überwachen. Durch die Kombination von maschinellem Lernen und programmierbaren Switches haben wir ein System erstellt, das Staus vorhersagt, bevor es passiert, und aktiviert detaillierte Telemetrie genau an der richtigen Stelle und Zeit.

Es scheint eine geringfügige Veränderung zu sein, anstatt zu reagieren, aber es eröffnet ein neues Maß an Beobachtbarkeit. Da die Telemetrie in Rechenzentren im KI-Maßstab und in geringen Latenzdiensten immer wichtiger wird, wird diese Artwork der intelligenten Überwachung zu einer Grunderwartung, nicht nur zu einem Nettel.

Referenzen

  1. https://www.researchgate.internet/publication/340034106_adaptive_telemetry_for_software-defined_mobilile_networks
  2. https://liyuliang001.github.io/publications/hpcc.pdf

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert