Der Fingerabdruck mit fünf Sekunden: In Shazams On the spot Tune ID

Dieser Beitrag wird hinter dem Faucet fortgesetzt, einer Serie, in der die verborgenen Mechanik der alltäglichen Technologie erforscht wird – von Uber über Spotify bis hin zu Suchmaschinen. Ich werde unter der Motorhaube tauchen, um die Systeme zu entmystifizieren, die Ihre digitale Welt prägen.

Die erste Beziehung zum Musikhörer begann um 6 und drehte sich durch die Alben im Onkyo 6-Disc-Participant des Wohnzimmers. Katze StevensAnwesend Rille ArmadaAnwesend Sade. Es gab immer ein Lied, gegen das ich immer wieder zurückspulen konnte, obwohl ich seinen Namen nicht kannte. 10 Jahre später kehrten Momente des Songs in die Erinnerung zurück. Ich habe durch Foren gesucht, ‚alte Saxophon Melodie ‚“Classic -Lied über Sanddünen‚, auf der Suche nach Jahren ohne Erfolg. Dann, eines Tages an der Universität, struggle ich im Schlafsaal meines Freundes Pegler, als er es spielte:

https://www.youtube.com/watch?v=wzct7abuu9y

Diese lange Suche lehrte mich, wie wichtig es ist, die Musik zu finden, die Sie lieben.

Vor dem Streaming und intelligenten Assistenten stützte sich Musik Discovery auf Erinnerung, Glück oder einen Freund mit gutem Musikgeschmack. Dieser ein eingängige Chor könnte durch den Äther verloren gehen.

Dann kam das Wunder eines Musikliebhabers.

Ein paar Sekunden des Klangs. Eine Style drücken. Und ein Identify auf Ihrem Bildschirm.

Shazam machte Musik erkennbar.

Der Ursprung: 2580

Shazam startete 2002, lange bevor Apps eine Sache waren. Damals hat es so funktioniert:

Du würdest wählen 2580# auf Ihrem Useful (nur in Großbritannien).
Halten Sie Ihr Telefon bis zum Lautsprecher.
… Warte schweigend…
Und erhalten a SMS Erzählen Sie Ihnen den Namen des Liedes.

Es fühlte sich wie Magie an. Das Gründungsteam Chris Barton, Philip Inghelbrecht, Avery Wang und Dhiraj Mukherjee haben jahrelang diese Phantasm aufgebaut.

Um seine erste Datenbank zu erstellen, Shazam stellte 30 junge Arbeiter ein Um 18-Stunden-Schichten auszuführen, 100.000 CDs manuell in Laptop zu laden und benutzerdefinierte Software program zu verwenden. Da CDs keine Metadaten enthalten, mussten sie die Namen der Songs manuell eingeben und sich auf die CD -Hülse beziehen, um schließlich die ersten Million Audio -Fingerabdrücke des Unternehmens zu erstellen – ein sorgfältiger Prozess, der Monate dauerte.

In einer Zeit vor Smartphones oder Apps musste Shazam, als Nokia und Blackberry’s nicht mit den Verarbeitungs- oder Speicheranforderungen erledigen konnten, lange genug am Leben bleiben, damit die Technologie ihre Idee einholt. Dies struggle eine Lektion im Markttiming.

In diesem Beitrag geht es darum, was im Second zwischen dem Faucet und dem Titel, der Signalverarbeitung, Hashing, Indizierung und Muster -Matching passiert, die Shazam hören lässt, was Sie nicht ganz benennen können.

Der Algorithmus: Audio -Fingerabdruck

Im Jahr 2003, Shazam-Mitbegründer Avery Wang veröffentlicht Die Blaupause für einen Algorithmus, der die App heute noch führt. Die zentrale Idee der Zeitung: Wenn Menschen Musik durch verstehen können Überlagerung Klangschichten, eine Maschine könnte es auch tun.

Lassen Sie uns durchgehen, wie Shazam auf etwas abbricht, das eine Maschine sofort erkennen kann.

1. Audioprobe erfassen

Es beginnt mit einem Wasserhahn.

Wenn Sie auf die Shazam -Style klicken, zeichnet die App ein 5–10 Sekunden -Ausschnitt des Audio um Sie herum auf. Dies dauert lang genug, um die meisten Songs zu identifizieren, obwohl wir alle Minuten gewartet haben, um unsere Telefone in der Luft zu halten (oder uns in unseren Taschen zu verstecken).

Aber Shazam speichert diese Aufnahme nicht. Stattdessen reduziert es es auf etwas viel kleineres und schlaueres: a Fingerabdruck.

2. Erzeugen des Spektrogramms

Bevor Shazam ein Lied erkennen kann, muss es verstehen, was Frequenzen sind im Klang und wenn sie auftreten. Dazu verwendet es ein mathematisches Device namens The Schnelle Fourier -Transformation (FFT).

Der Fft Unterschlägt ein Audiosignal in seine Komponentenfrequenzen und zeigt, welche Noten oder Töne jederzeit den Klang ausmachen.

Warum es wichtig ist: Wellenformen sind zerbrechlich und empfindlich gegenüber Rauschen, Pitchänderungen und Gerätekomprimierung. Frequenzbeziehungen im Laufe der Zeit bleiben jedoch stabil. Das ist das Gold.

Wenn Sie Mathematik an der UNI studieren würden, erinnern Sie sich an die Kämpfe, das zu lernen Diskreter Fourier -Transformationsprozess.Schnelle Fourier -Transformation (FFT) ist eine effizientere Model, mit der wir ein komplexes Sign in seine Frequenzkomponenten zerlegen können, z. B. alle Notizen in einem Akkord zu hören.

Musik ist nicht statisch. Notizen und Harmonische ändern sich im Laufe der Zeit. Shazam läuft additionally nicht nur einmal FFT, sondern leitet es wiederholt über kleine, überlappende Fenster des Alerts. Dieser Prozess ist als der bekannt Kurzzeit-Fourier-Transformation (STFT) und bildet die Grundlage der Spektrogramm.

Bild vom Autor: Quick Fourier Transformation Visualisiert

Das resultierende Spektrogramm ist eine Transformation des Klangs aus dem Amplitudenzeitdomäne (Wellenform) in die Frequenzzeitdomäne.

Stellen Sie sich dies als eine unordentliche Audio -Wellenform in eine musikalische Heatmap um.
Anstatt zu zeigen, wie laut der Klang ist, zeigt ein Spektrogramm Welche Frequenzen sind vorhanden zu welcher Zeit.

Bild vom Autor: Eine Visualisierung des Übergangs von einer Wellenform zu einem Spektrogramm mit FFT

Ein Spektrogramm bewegt die Analyse aus dem Amplitudenzeitdomäne Zu Frequenzzeitdomäne. Es zeigt die Zeit auf der horizontalen Achse, die Frequenz auf der vertikalen Achse und verwendet Helligkeit, um die Amplitude (oder das Volumen) jeder Frequenz in jedem Second anzuzeigen. Auf diese Weise können Sie nicht nur feststellen, welche Frequenzen vorhanden sind, sondern auch, wie sich ihre Intensität entwickelt, und ermöglicht es, Muster, transiente Ereignisse oder Änderungen des Alerts zu identifizieren, die in einer Commonplace-Zeit-Domänen-Wellenform nicht sichtbar sind.

Spektrogramme werden in Bereichen wie Audioanalyse, Sprachverarbeitung, Seismologie und Musik weit verbreitet und bieten ein leistungsstarkes Instrument zum Verständnis der zeitlichen und spektralen Eigenschaften von Signalen.

3. vom Spektrogramm zur Sternbilderkarte

Spektrogramme sind dicht und enthalten zu viele Daten, um sich über Millionen von Songs zu vergleichen. Shazam filtert die Frequenzen mit geringer Intensität und hinterlässt genau die lautesten Gipfel.

Dadurch wird eine Sternbildkarte erstellt, eine visuelle Streuung von herausragenden Frequenzen im Laufe der Zeit, ähnlich wie Noten, obwohl sie mich an eine mechanische Musikkiste erinnert.

Bild des Autors: Eine Visualisierung des Übergangs in eine Konstellationskarte

4. Erstellen des Audio -Fingerabdrucks

Jetzt kommt die Magie, Wendepunkte in eine Signatur.

Shazam nimmt jeden Ankerpunkt (einen dominanten Peak) und kombiniert ihn mit Zielpeaks in einem kleinen Zeitfenster – und bildet eine Verbindung, die sowohl Frequenzpaar als auch Zeitdifferenz codiert.

Jedes von diesen wird zu einem Hash -Tupel:

(Anchor_Frequency, target_frequency, time_delta)

Bild des Autors: Hash -Generierungsprozess

Was ist ein Hash?

Ein Hash ist die Ausgabe einer mathematischen Funktion, die als Hash-Funktion bezeichnet wird und die Eingabedaten in eine Zeichenfolge mit fester Länge von Zahlen und/oder Zeichen umwandelt. Es ist eine Möglichkeit, komplexe Daten in eine kurze, eindeutige Kennung zu verwandeln.

Hashing wird in Informatik und Kryptographie häufig verwendet, insbesondere für Aufgaben wie Daten -Lookup, Überprüfung und Indexierung.

Bild des Autors: Beziehen Sie sich darauf Quelle Hashing verstehen

Für Shazam eine typische Hash ist 32 Bit lang und es könnte so strukturiert sein:

10 Bit Für die Ankerfrequenz
10 Bit Für die Zielfrequenz
12 Bit Für die Zeit Delta zwischen ihnen

Bild vom Autor: Eine Visualisierung des Hashing -Beispiels von oben

Dieser winzige Fingerabdruck fängt die Beziehung zwischen zwei Soundspitzen und wie weit sie rechtzeitig voneinander entfernt sind, und ist stark genug, um den Tune zu identifizieren, und klein genug, um schnell zu übertragen, selbst bei Verbindungen mit niedrigem Bandbreite.

5. Anpassung gegen die Datenbank

Sobald Shazam einen Fingerabdruck aus Ihrem Snippet erstellt hat, muss es in seiner Datenbank mit Millionen von Songs schnell ein Match finden.

Obwohl Shazam keine Ahnung hat, woher Ihr Clip kam – Intro, Vers, Refrain, Bridge – spielt keine Rolle, dass es nach relativem Timing zwischen Hash -Paaren sucht. Dies macht das System sturdy, um Offsets im Eingabe -Audio zu zeitigen.

Bild vom Autor: Visualisierung des passenden Hashes mit einem Datenbanklied

Shazam vergleicht den Hashes Ihrer Aufnahme mit seiner Datenbank und identifiziert den Tune mit der höchsten Anzahl von Übereinstimmungen, dem Fingerabdruck, der am besten mit Ihrem Beispiel entspricht, auch wenn es aufgrund von Hintergrundgeräuschen nicht genau übereinstimmt.

Wie es so schnell sucht

Um diesen Blitzschnitzel zu machen, verwendet Shazam a HashmapAnwesend Eine Datenstruktur, die eine nahezu instantierte Suche ermöglicht.

Ein HashMap kann in O (1) eine Übereinstimmung finden, dh die Suchzeit bleibt konstant, auch wenn Millionen von Einträgen vorhanden sind.

Im Gegensatz dazu nimmt ein sortierter Index (wie B-Tree auf der Festplatte) o (log n) Zeit, was langsam wächst, wenn die Datenbank wächst.

Dieses Gleichgewicht zwischen Zeit und Raumkomplexität ist als bekannt als als Huge O NotationTheorie Ich bin nicht darauf vorbereitet, zu lehren. Bitte beachten Sie einen Informatiker.

6. Skalierung des Methods

Um diese Geschwindigkeit im globalen Maßstab aufrechtzuerhalten, nutzt Shazam mehr als nur schnelle Datenstrukturen, sondern es optimiert, wie und wo die Daten leben:

Scherben Die Datenbank – dividieren Sie sie nach Zeitbereich, Hash -Präfix oder Geographie
Hält heiße Scherben im Speicher (RAM) für sofortigen Zugriff
Lädt kältere Daten auf die Festplatte ab, was langsamer, aber billiger zu speichern ist
Verteilt das System nach Area (z. B. US -Osten, Europa, Asien). Daher ist die Anerkennung schnell, egal wo Sie sich befinden

Dieses Design unterstützt 23.000 Anerkennungen professional Minutesogar in globaler Ebene.

Auswirkungen und zukünftige Anwendungen

Die offensichtliche Anwendung ist Musikentdeckung auf Ihrem Telefon, aber es gibt eine weitere wichtige Anwendung von Shazams Prozess.

Shazam erleichtert Markteinsichten. Jedes Mal, wenn ein Benutzer ein Lied markiert, sammelt Shazam anonymisierte, geo-zeitliche Metadaten (wo, wann und wie oft ein Lied ids.)

Labels, Künstler und Promotoren verwenden dies, um:

Spot Breakout -Tracks, bevor sie in die Charts getroffen werden.
Identifizieren Sie regionale Traits (ein Remix, der in Tokio vor LA an Tokio gewinnt).
Leitfadenvermarktungsausgaben basierend auf Bio -Attraktion.

Im Gegensatz zu Spotify, das das Hörverhalten von Benutzern verwendet, um Empfehlungen zu verfeinern, liefert Shazam Echtzeitdaten zu Songs, die Menschen aktiv identifizieren und die Musikindustrie frühzeitige Einblicke in neue Traits und beliebte Tracks bieten.

Was Spotify hört, bevor Sie dies tun
Die Datenwissenschaft der MusikempfehlungMedium.com

Im Dezember 2017, Apfel kaufte Shazam für eine gemeldete 400 Millionen Greenback. Apple verwendet Berichten zufolge Shazams Daten, um die Empfehlungsmotor von Apple Music zu erweiternAnwesend und Aufzeichnungsbezeichnungen überwachen jetzt Shazam -Traits, wie sie früher überwacht haben Radiospins.

In Zukunft wird die Entwicklung in Bereichen wie folgt erwartet:

Visible Shazam: Zeigen Sie bereits pilotiert auf eine Kamera auf ein Objekt oder ein Kunstwerk, um es zu identifizieren, nützlich für eine Augmented Actuality -Zukunft.
Konzertmodus: Identifizieren Sie Songs dwell während der Gigs und synchronisieren Sie eine Echtzeit-Setlist.
Hyper-lokale Traits: Oberflächenüberlegen, was auf dieser Straße oder in diesem Veranstaltungsort tendiert, wodurch der Musikgeschmack von Group-Shared-Musik erweitert wird.
Generative AI -Integration: P.Air -Audio -Snippets mit Lyrikgenerierung, Remixvorschlägen oder visueller Begleitung.

Outro: Der Algorithmus, der Bestand hat

In einer Welt immer verändernder Tech-Stapel ist es selten, dass ein Algorithmus über 20 Jahre lang related bleibt.

Aber Shazams Fingerabdruckmethode hat es nicht nur ertragen, sie ist skaliert, entwickelt und wird zu einer Blaupause für Audioerkennungssysteme in der gesamten Branche.

Die Magie ist nicht nur so, dass Shazam ein Lied nennen kann. So macht es es, verwandelte unordentlichen Sound in elegante Mathematik und macht es zuverlässig, sofort und international.

Wenn Sie additionally das nächste Mal in einer lauten, trashigen Bar sind, hält Ihr Telefon bis zum Lautsprecher, um zu spielen Lola Youngs ‚chaotisch‘ Denken Sie daran: Hinter diesem Wasserhahn befindet sich ein wunderschöner Stapel von Signalverarbeitung, Hashing und Suche, so intestine, dass sich kaum ändern musste.