Tl; dr: Bei datenintensiven Architekturen gibt es häufig einen entscheidenden Punkt, an dem das Aufbau interner Datenplattformen sinnvoller ist, als lösungsübergreifende Lösungen zu kaufen.


Der mystische Drehpunktpunkt

Der Kauf von Datenplattformen aus der Hand ist eine beliebte Wahl für Startups, um ihr Geschäft zu beschleunigen, insbesondere in den frühen Stadien. Ist es jedoch wahr, dass Unternehmen, die bereits gekauft haben, nie drehen müssen, um zu bauen, genau wie die Dienstleister versprochen hatten? Es gibt Gründe für beide Seiten der Ansicht:

Bild des Autors
  • Dreharbeiten: Die Kosten für den Kauf übersteigen schließlich die Gebäudekosten, da die Kosten beim Kauf schneller wachsen.
  • Keine Notwendigkeit zu drehen: Die Anforderungen der Plattform werden sich weiterentwickeln und die Gebäudekosten erhöhen, sodass der Kauf immer billiger ist.

Es ist ein solches Puzzle, aber nur wenige Artikel haben es besprochen. In diesem Beitrag werden wir uns mit diesem Thema befassen und drei Dynamik analysieren, die die Gründe für das Aufbau und zwei Strategien erhöhen, wenn sie sich für den Drehpunkt entscheiden.

Dynamik Drehstrategien
– Wachstum des technischen Kredits
– Verschiebung der Kundenpersönlichkeit
– Priorität falsch ausgerichtet
-Kostenbasierte Pivoting
-Wertbasierte Drehungen

Wachstum des technischen Kredits

Alles begann außerhalb des Umfangs der Datenplattform. Ich möchte es oder nicht, um die Effizienz oder Ihren Betrieb zu verbessern, muss Ihr Unternehmen aufbauen Technische Credit auf drei verschiedenen Ebenen. Wenn sie es merken oder nicht, werden sie Ihnen das Aufbau leichter machen.

Was ist technischer Kredit? Schauen Sie sich das an artil veröffentlicht in ACM.

Diese drei Ebenen von Technische Credit Sind:

Technischer KreditS Schlüsselzwecke
Cluster -Orchestrierung Verbesserung der Effizienz bei der Verwaltung von Kubernetes-Clustern mit mehreren Blicken.
Containerorchestrierung Verbesserung der Effizienz bei der Verwaltung von Microservices und Open-Supply-Stapeln
Funktion Orchestrierung Verbessern Sie die Effizienz, indem Sie eine interne FAAs (Funktion als Dienstleistung) einrichten, die alle Infrastrukturdetails abstrahiert.

Für die Cluster -Orchestrierung gibt es typischerweise drei verschiedene Geschmacksrichtungen von Kubernetes -Clustern.

  • Cluster für Microservices
  • Cluster für Streaming -Dienste
  • Cluster für die Batch -Verarbeitung

Jeder von ihnen erfordert unterschiedliche Bereitstellungsstrategien, insbesondere bei Netzwerkdesign und automatischem Umfang. Schauen Sie sich das an Submit Für einen Überblick über die Unterschiede zum Netzwerkdesign.

Unterschiede für das Netzwerkdesign für verschiedene Arten von K8S -Clustern. Bild des Autors

Für die Effizienz der Containerorchestrierung ist eine Möglichkeit, den Kubernetes -Cluster mit einer benutzerdefinierten Ressourcendefinition (CRD) zu erweitern. In diesem Beitrag teilte ich mit, wie Kubebuilder arbeitet und einige Beispiele, die damit gebaut wurden. z. B. eine interne DS-Plattform von CRD.

Eine DS -Plattform, die mit CRD gebaut wurde. Bild des Autors

Für die Funktion der Funktionsorchestrierung erforderte eine Kombination aus SDK und der Infrastruktur. Viele Unternehmen werden Gerüst -Instruments verwenden, um Code -Skelette für Microservices zu generieren. Mit dieser Kontrollinversion ist die Aufgabe für den Benutzer einfach, den Handler-Körper des Relaxation-API zu füllen.

In diesem Submit In Richtung Information Science werden die meisten Dienste auf der MLOPS -Reise mit FAAS erstellt. Insbesondere für Modellserving-Dienste müssen maschinelle Lerningenieure nur ein paar wesentliche Funktionen ausfüllen, die für die Belastung, Transformation und das Anfordern von Routing von Funktionen von entscheidender Bedeutung sind.

Bild des Autors

Die folgende Tabelle teilt die Hauptbenutzerreise Und Kontrollbereich von verschiedenen Ebenen von Technische Credit.

Technischer KreditS Hauptbenutzerreise Kontrollbereich
Cluster
Orchestrierung
Selbstbedienung bei der Erstellung von Multi-Flavour-K8s-Clustern. – Richtlinien für Area, Zone und IP -CIDR -Zuordnung
– Netzwerkspähen
– Richtlinie beispielsweise Bereitstellung
– Sicherheit und OS Harden
– Terraformmodule und CI/CD -Pipelines
Containerorchestrierung Self-Serve on Service-Bereitstellung, Open-Supply-Stack-Bereitstellung und CRD-Gebäude – Gitops für Cluster -Ressourcenveröffentlichungen
– Richtlinie zur Eindringung der Schöpfung
– Richtlinie für die Kundenressourcendefinition
– Richtlinie für Cluster Auto Skaling
– Richtlinien für die metrische Sammlung und Überwachung
– Kostenverfolgung
Funktion
Orchestrierung
Konzentrieren Sie sich ausschließlich auf die Implementierung der Geschäftslogik, indem Sie vordefinierte Funktionskelette füllen. – Identitäts- und Berechtigungskontrolle
– Konfigurationsverwaltung
– interner Zustandsprüfungspunkt
– Planung und Migration
– Service Discovery
– Gesundheitsüberwachung

Mit dem Wachstum von Technische CreditDie Gebäudekosten verringern.

Bild des Autors

Die ÜbertragbarkeitsdiffFERS für verschiedene Ebenen von technischen Credit. Von unten nach oben wird es immer weniger übertragbar. Sie können ein konsistentes Infrastrukturmanagement durchsetzen und Microservices wiederverwenden. Es ist jedoch schwierig, das technische Guthaben für den Aufbau von FAAs über verschiedene Themen wiederzuverwenden. Darüber hinaus bedeutet sinkende Baukosten nicht, dass Sie alles selbst wieder aufbauen müssen. Für eine vollständige Construct-VS-Purchase-Kompromissanalyse spielen zwei weitere Faktoren eine Rolle, nämlich:

  • Verschiebung der Kundenpersönlichkeit
  • Priorität falsch ausgerichtet

Verschiebung der Kundenpersönlichkeit

Wenn Ihr Unternehmen wächst, werden Sie bald erkennen, dass sich die Persona -Verteilung für Datenplattformen verändert.

Bild des Autors

Wenn Sie klein sind, sind die Mehrheit Ihrer Benutzer Datenwissenschaftler und Datenanalysten. Sie untersuchen Daten, validieren Ideen und generieren Metriken. Wenn jedoch mehr datenzentrierte Produktfunktionen veröffentlicht werden, beginnen die Ingenieure, Spark Jobs zu schreiben, um ihre On-line-Dienste und ML-Modelle zu sichern. Diese Datenpipelines sind erstklassige Bürger Genau wie Microservices. Eine solche Persona -Verschiebung, die eine vollständig Gitops Information Pipeline Growth Journey akzeptabel und sogar willkommen macht.

Priorität falsch ausgerichtet

Es wird Fehlausrichtungen zwischen SaaS -Anbietern und Ihnen geben, einfach weil jeder im besten Interesse seines eigenen Unternehmens handeln muss. Die Fehlausrichtung erscheint zunächst gering, könnte sich jedoch im Laufe der Zeit allmählich verschlechtern. Diese möglichen Fehlausrichtungen sind:

Priorität SaaS -Anbieter Du
Characteristic -Priorisierung Nutzen der Mehrheit der Kunden Vorteile Ihrer Organisation
Kosten Sekundäre Auswirkungen (potenzielle Kundschaftswanderung) Direkte Auswirkungen (müssen mehr bezahlen)
Systemintegration Customary
Schnittstelle
Anpassbare Integration
Ressourcenpooling Zwischen ihren Mietern teilen Teilen Sie Ihr internes System über

Für das Ressourcenpooling eignen sich Datensysteme perfect für die Zusammenarbeit mit On-line-Systemen, da ihre Workloads in der Regel zu unterschiedlichen Zeiten ihren Höhepunkt erreichen. In den meisten Fällen erleben On-line -Systeme tagsüber einen Spitzenverbrauch, während Datenplattformen nachts einen Höhepunkt erreichen. Angesichts höherer Verpflichtungen für Ihren Cloud -Anbieter werden die Vorteile des Ressourcenpoolings bedeutender. Vor allem, wenn Sie jährliche reservierte Instanzquoten kaufen, erhalten Sie eine stärkere Verhandlungsleistung für On-line- und Offline -Workload. Die SaaS -Anbieter werden jedoch die Pivotierung an serverless Structure priorisieren, um das Ressourcenbadium zwischen ihren Kunden zu ermöglichen und damit ihre Gewinnspanne zu verbessern.


Pivot! Pivot! Pivot?

Selbst wenn die Kosten für den Aufbau von Absenken und Fehlausrichtungen steigen, wird das Gebäude niemals eine einfache Choice sein. Es erfordert Area-Experience und langfristige Investitionen. Die gute Nachricht ist jedoch, dass Sie keinen vollständigen Schalter durchführen müssen. Es gibt zwingende Gründe, einen hybriden Ansatz oder einen Schritt-für-Schritt-Drehpunkt zu verfolgen und die Kapitalrendite sowohl des Kaufs als auch des Gebäudes zu maximieren. Es könnte zwei Möglichkeiten geben, sich vorwärts zu bewegen:

  • Kostenbasierte Drehung
  • Wertbasierte Pivotierung

Haftungsausschluss: Ich präsentiere hiermit meine Perspektive. Es präsentiert einige allgemeine Grundsätze, und Sie werden ermutigt, Ihre eigene Forschung zur Validierung durchzuführen.

Ansatz 1: Kostenbasierte Drehungen

Die 80/20 -Regel gilt auch intestine für die Funkenjobs. 80% der Funkenjobs sind in der Produktion betrieben, während die verbleibenden 20% von Benutzern aus der Umgebung von Dev/Sandbox eingereicht werden. Unter den 80% der Produktionsplätze sind 80% klein und unkompliziert, während die restlichen 20% groß und komplex sind. Ein Premium -Spark -Motor unterscheidet sich hauptsächlich von großen und komplexen Arbeitsplätzen.

Möchten Sie verstehen, warum Databricks Photon bei komplexen Funkenjobs intestine abschneidet? Schauen Sie sich das an Submit von Huong.

Darüber hinaus erfordern Sandbox- oder Entwicklungsumgebungen stärkere Datengovernance -Kontrollen und Daten zur Datenerfassbarkeit, die beide recht komplexe Systeme erfordern. Im Gegensatz dazu konzentriert sich die Produktionsumgebung stärker auf Gitops Management, was mit vorhandenen Angeboten aus der Cloud und der Open-Supply-Group einfacher zu erstellen ist.

Bild des Autors

Wenn Sie ein kostenbasiertes dynamisches Routing-System wie einen mehrwaffen-Banditen erstellen können, um weniger komplexe Funkenjobs an eine erschwinglichere interne Plattform zu vermitteln, können Sie möglicherweise eine erhebliche Menge an Kosten einsparen. Mit zwei Voraussetzungen:

  • Plattform-agnostische Artefakt: Eine Plattform wie Databricks hat möglicherweise eine eigene SDK- oder Pocket book -Notation, die spezifisch für das Databricks -Ökosystem ist. Um dynamisches Routing zu erreichen, müssen Sie Requirements durchsetzen, um plattform-agnostische Artefakte zu erstellen, die auf verschiedenen Plattformen ausgeführt werden können. Diese Praxis ist entscheidend, um die Anbieter langfristig zu verhindern.
  • Patchen fehlende Komponenten (z.B, Hive-Metastore): Es ist ein Anti-Muster, zwei duplizierte Systeme nebeneinander zu haben. Aber es kann notwendig sein, wenn Sie sich drehen, um zu bauen. Zum Beispiel kann Open-Supply-Spark den Einheitskatalog von Databricks nicht auf die volle Fähigkeit nutzen. Daher müssen Sie möglicherweise einen Katalogdienst wie einen Bienenstock-Metastore für Ihre interne Plattform entwickeln.

Bitte beachten Sie auch, dass ein kleiner Teil komplexer Jobs einen großen Teil Ihrer Rechnung ausmachen kann. Daher ist eine gründliche Forschung für Ihren Fall erforderlich.

Ansatz zwei: wertbasierte Drehungen

Der zweite Pivot -Ansatz basiert darauf, wie die Dosis -Pipeline Werte für Ihr Unternehmen generiert.

  • Betrieb: Daten als Produkt als Wert
  • Analytisch: Einblick als Werte

Der Rahmen des Zusammenbruchs ist von diesem Artikel inspiriert. MLOPS: kontinuierliche Liefer- und Automatisierungsleitungen im maschinellen Lernen. Es bringt ein wichtiges Konzept namens Experimental-Operationssymmetrie auf.

Bild des Autors

Wir klassifizieren unsere Datenpipelines in zwei Dimensionen:

  • Basierend auf der Komplexität des Artefakts werden sie in Low-Code-, Skript- und Hochcode-Pipelines eingeteilt.
  • Basierend auf dem von ihm generierten Wert werden sie in operative und analytische Pipelines eingeteilt.

Excessive-Code- und Betriebspipelines erfordern Staging-> Produktionssymmetrie Für strenge Code -Überprüfung und -Validierung. Skript- und analytische Pipelines erfordern Dev-> Staging-Symmetrie Für schnelle Entwicklungsgeschwindigkeit. Wenn eine analytische Pipeline einen wichtigen analytischen Einblick hat und sein muss demokratisiert, sollte es TRA seinNSITISION in eine operative Pipeline mit Codeüberprüfungen, da die Gesundheit dieser Pipeline für viele andere von entscheidender Bedeutung wird.

Die Gesamtsymmetrie, dev -> stg -> prdwird nicht für Skript- und Excessive-Code-Artefakte empfohlen.

Lassen Sie uns die betrieblichen Prinzipien und wichtigen Anforderungen dieser verschiedenen Pipelines untersuchen.

Pipeline -Typ Betriebsprinzip Schlüsselanforderungen der Plattform
Daten als Produkt (operativ) Strenge Gitops, Rollback beim Ausfall Stabilität und enge interne Integration
Einsicht als Werte (analytisch) Schnelle Iteration, Überrollover beim Versagen Benutzererfahrung und Entwicklergeschwindigkeit

Aufgrund der unterschiedlichen Möglichkeiten, Wert- und Betriebsprinzipien zu erzielen, können Sie:

  • Pivot Operational Pipelines: Da die interne Integration für die operative Pipeline kritischer ist, ist es sinnvoller, zuerst auf interne Plattformen zu drehen.
  • Pivot-Low-Code-Pipelines: Die Low-Code-Pipeline kann aufgrund ihrer Niedrigcode-Natur auch leicht umgeschaltet werden.

Endlich

Pivot oder nicht Drehzahl, es ist kein einfacher Anruf. Zusammenfassend sind dies Praktiken, die Sie unabhängig von der Entscheidung, die Sie treffen, einführen sollten:

  • Achten Sie auf das Wachstum Ihres internen technischen Kredits und aktualisieren Sie Ihre Bewertung der Gesamtbetriebskosten.
  • Fördern Plattform-agnostische Artefakte Um die Verkäufersperrung zu vermeiden.

Natürlich, wenn Sie tatsächlich drehen müssen, haben Sie natürlich eine gründliche Strategie. Wie verändert KI hier unsere Bewertung?

  • AI ermöglicht ein prompt-> Excessive-Code. Es beschleunigt die Entwicklung von operativen und analytischen Pipelines dramatisch. Um mit dem Development Schritt zu halten, sollten Sie den Kauf oder Gebäude in Betracht ziehen, wenn Sie zuversichtlich sind.
  • KI erfordert eine höhere Qualität aus Daten. Die Gewährleistung der Datenqualität wird sowohl für interne Plattformen als auch für SaaS-Anbieter kritischer sein.

Hier sind meine Gedanken zu diesem unpopulären Thema, Dreharbeiten von Purchase to Construct. Lassen Sie mich Ihre Gedanken darüber wissen. Prost!

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert