Messung der produktübergreifenden Akzeptanz mit dbt_set_similarity | von Matthew Senick

Verbesserung produktübergreifender Erkenntnisse innerhalb von DBT-Workflows

Für Unternehmen mit mehreren Produkten ist häufig die sogenannte „produktübergreifende Akzeptanz“ eine entscheidende Kennzahl. (d. h. verstehen, wie Benutzer mit mehreren Angeboten in einem bestimmten Produktportfolio interagieren)

Eine vorgeschlagene Maßnahme zur Berechnung der produkt- oder funktionsübergreifenden Nutzung im beliebten Buch Wachstum hacken (1) ist die Jaccard-Index. Der Jaccard-Index wird traditionell zur Messung der Ähnlichkeit zwischen zwei Mengen verwendet und kann auch als leistungsstarkes Instrument zur Bewertung von Produktakzeptanzmustern dienen. Dies geschieht durch die Quantifizierung der Überschneidungen bei den Benutzern zwischen den Produkten, anhand derer sich produktübergreifende Synergien und Wachstumschancen ermitteln lassen.

Das dbt-Paket dbt_set_similarity soll die Berechnung festgelegter Ähnlichkeitsmetriken direkt innerhalb eines Analyse-Workflows vereinfachen. Dieses Paket bietet eine Methode zur Berechnung der Jaccard-Indizes innerhalb von SQL-Transformationsschichten.

Um dieses Paket in Ihr dbt-Projekt zu importieren, fügen Sie Folgendes hinzu packages.yml Datei. Für die Zwecke dieses Artikelbeispiels benötigen wir auch dbt_utils. Führen Sie a aus dbt deps Befehl in Ihrem Projekt, um das Paket zu installieren.

packages:
- bundle: Matts52/dbt_set_similarity
model: 0.1.1
- bundle: dbt-labs/dbt_utils
model: 1.3.0

Der Jaccard-Index, auch bekannt als Jaccard-Ähnlichkeitskoeffizient, ist eine Metrik zur Messung der Ähnlichkeit zwischen zwei Mengen. Sie ist definiert als die Größe der Schnittmenge der Mengen dividiert durch die Größe ihrer Vereinigung.

Mathematisch kann es ausgedrückt werden als:

Der Jaccard-Index stellt den „Schnittpunkt“ über der „Vereinigung“ zweier Mengen dar (Bild des Autors)

Wo:

A Und B sind zwei Gruppen (z. B. Benutzer von Produkt A und Produkt B)
Der Zähler repräsentiert die Anzahl der Elemente in beiden Mengen
Der Nenner stellt die Gesamtzahl der unterschiedlichen Elemente in beiden Mengen dar

Der Jaccard-Index ist besonders nützlich im Zusammenhang mit der produktübergreifenden Einführung, weil:

Es konzentriert sich auf die Überlappung zwischen zwei Gruppen und ist daher supreme für das Verständnis gemeinsamer Benutzerbasen
Es berücksichtigt Unterschiede in der Gesamtgröße der Sätze und stellt sicher, dass die Ergebnisse proportional sind und nicht durch Ausreißer verzerrt werden

Zum Beispiel:

Wenn 100 Benutzer Produkt A und 50 Produkt B übernehmen und 25 Benutzer beide verwenden, beträgt der Jaccard-Index 25 / (100 + 50 – 25) = 0,2, was auf eine 20-prozentige Überlappung zwischen den beiden Benutzerbasen durch den Jaccard-Index hinweist.

Der Beispieldatensatz, den wir verwenden werden, ist ein fiktives SaaS-Unternehmen, das Speicherplatz als Produkt für Verbraucher anbietet. Dieses Unternehmen bietet zwei unterschiedliche Speicherprodukte an: Dokumentenspeicher (doc_storage) und Fotospeicher (photo_storage). Diese sind entweder wahr, was bedeutet, dass das Produkt übernommen wurde, oder falsch, was bedeutet, dass das Produkt nicht übernommen wurde.

Darüber hinaus sind die demografischen Daten (Benutzerkategorie), die dieses Unternehmen bedient, sind entweder Technikbegeisterte oder Hausbesitzer.