Haben Sie sich jemals gefragt, wie Chatbots und virtuelle Assistenten aufwachen, wenn Sie „Hey Siri“ oder „Alexa“ sagen? Dies liegt an der Sammlung von Textäußerungen oder in die Software program eingebetteten Auslösewörtern, die das System aktiviert, sobald es das programmierte Aktivierungswort hört.
Allerdings ist der Gesamtprozess der Erstellung von Lauten und Äußerungsdaten nicht so einfach. Es ist ein Prozess, der mit der richtigen Technik durchgeführt werden muss, um die gewünschten Ergebnisse zu erzielen. In diesem Weblog erfahren Sie daher, wie Sie gute Äußerungen/Triggerwörter erstellen, die nahtlos mit Ihrer Konversations-KI zusammenarbeiten.
Was ist eine „Äußerung“ in der KI?
In der Konversations-KI (Chatbots, Sprachassistenten) ist eine Äußerung eine kurze Benutzereingabe – die genauen Wörter, die eine Individual sagt oder tippt. Modelle verwenden Äußerungen, um die Absicht (Ziel) des Benutzers und alle Entitäten (Particulars wie Daten, Produktnamen, Mengen) herauszufinden.
Einfache Beispiele
E-Commerce-Bot
Äußerung: „Verfolgen Sie meine Bestellung unter 123-456.“
- Absicht: TrackOrder
- Entität: order_id = 123-456
Telekommunikations-Bot
Äußerung: „Aktualisieren Sie meinen Datentarif.“
- Absicht: ChangePlan
- Entität: plan_type = Daten
Sprachassistent für Banken
Äußerung (gesprochen): „WWie hoch ist mein Kontostand heute?”
- Absicht: CheckBalance
- Entitäten: account_type = checking, date = at present
Warum Ihre Konversations-KI gute Äußerungsdaten benötigt
Wenn Sie möchten, dass sich Ihr Chatbot oder Sprachassistent hilfreich und nicht anfällig anfühlt, beginnen Sie mit besseren Äußerungsdaten. Äußerungen sind die rohen Phrasen, die Menschen sagen oder tippen, um Dinge zu erledigen („Buchen Sie mir ein Zimmer für morgen“, „Ändern Sie meinen Plan“, „Wie ist der Standing?“). Sie beeinflussen die Klassifizierung von Absichten, die Extraktion von Entitäten und letztendlich das Kundenerlebnis. Wenn Äußerungen vielfältig, repräsentativ und intestine beschriftet sind, lernen Ihre Modelle die richtigen Grenzen zwischen Absichten und gehen mit chaotischen Eingaben aus der realen Welt souverän um.
Erstellen Sie Ihr Äußerungs-Repository: ein einfacher Arbeitsablauf
1. Beginnen Sie mit der echten Benutzersprache
Meins Chat-Protokolle, Suchanfragen, IVR-Transkripte, Agentennotizenund Kunden-E-Mails. Gruppieren Sie sie nach Benutzerziel, um Absichten zu ermitteln. (Sie werden umgangssprachliche Ausdrücke und mentale Modelle einfangen, an die Sie in einem Raum nicht denken würden.)
2. Erstellen Sie absichtlich Variationen
Verfassen Sie für jede Absicht verschiedene Beispiele:
- Formulieren Sie Verben und Substantive um („abbrechen“, „stoppen“, „beenden“; „planen“, „Abonnement“).
- Mischen Sie Satzlängen und -strukturen (Frage, Direktive, Fragment).
- Fügen Sie Tippfehler, Abkürzungen, Emojis (für den Chat) und ggf. Codewechsel ein.
- Fügen Sie unfavorable Fälle hinzu, die ähnlich aussehen, es aber sollten nicht Zuordnung zu dieser Absicht.
3. Balancieren Sie Ihre Klassen
Extrem einseitiges Coaching (z. B. 500 Beispiele für eine Absicht und 10 für andere) beeinträchtigt die Vorhersagequalität. Halten Absichtsgrößen relativ gleichmäßig und wachsen Sie sie zusammen, wie der Verkehr es Ihnen lehrt.
4. Überprüfen Sie die Qualität vor dem Coaching
Blockieren Sie Low-Sign-Daten mit Validatoren während der Erstellung/Sammlung:
- Spracherkennung: Stellen Sie sicher, dass die Beispiele zielsprachlich sind.
- Gibberish-Detektor: Fange unsinnige Saiten.
- Prüfungen auf Duplikate/Beinahe-Duplikate: Halten Sie die Vielfalt hoch.
- Regex/Rechtschreibung und Grammatik: Setzen Sie bei Bedarf Stilregeln durch.
Intelligente Validatoren (wie sie von Appen verwendet werden) können große Teile dieses Gatekeepings automatisieren.
5. Beschriften Sie Entitäten konsistent
Definieren Sie Slot-Typen (Daten, Produkte, Adressen) und zeigen Sie Annotatoren an wie man Grenzen markiert. Muster wie Muster beliebig in LUIS kann lange, variable Bereiche (z. B. Dokumentnamen) eindeutig machen, die Modelle verwirren.
6. Testen Sie es wie in der Produktion
Drücken ungesehen echte Äußerungen an einen Vorhersageendpunkt oder Staging-Bot, überprüfen Sie Fehlklassifizierungen und fördern mehrdeutige Beispiele ins Coaching. Machen Sie daraus eine Schleife: Sammeln → Trainieren → Überprüfen → Erweitern.
Was „chaotische Realität“ wirklich bedeutet (und wie man damit umgeht)
Echte Benutzer sprechen selten in perfekten Sätzen. Erwarten:
- Fragmente: „Versandgebühr erstatten“
- Zusammengesetzte Ziele: „Bestellung stornieren und neu bestellen in Blau“
- Implizite Entitäten: „An mein Büro versenden“ (Sie müssen wissen, welches Büro)
- Mehrdeutigkeit: „Meinen Plan ändern“ (welcher Plan? wann wirksam?)
Praktische Lösungen
- Bieten klärende Hinweise nur bei Bedarf; Vermeiden Sie es, zu viel zu fragen.
- Erfassen Kontextübertragung (Pronomen wie „diese Reihenfolge“, „die letzte“).
- Verwenden Fallback-Absichten mit gezielter Wiederherstellung: „Ich kann helfen, Pläne zu stornieren oder zu ändern – was möchten Sie?“
- Monitor Absicht Gesundheit (Verwirrung, Kollision) und fügen Sie Daten dort hinzu, wo sie schwach sind
Sprachassistenten und Weckwörter: unterschiedliche Daten, ähnliche Regeln
Weckwörter („Hey Siri“, „Alexa“, benutzerdefinierte Weckphrasen) sind eine spezielle Untergruppe von Äußerungen mit starken akustischen Einschränkungen, aber die Berichterstattungsmentalität Es gilt immer noch: verschiedene Lautsprecher, Geräte und Umgebungen. Nach dem Aufwachen, Sprachäußerungen übernehmen Sie die eigentliche Aufgabe („Licht anmachen“, „Jazz spielen“). Behalten Sie Ihre aufwachen Und Aufgabe Datensätze unterscheiden und separat auswerten.
Wann (und wie) man Standarddaten im Vergleich zu benutzerdefinierten Daten verwendet
- Aus dem Regal: Beginnen Sie mit der Abdeckung neuer Gebiete und messen Sie dann, wo noch Verwirrung herrscht.
- Brauch: Erfassen Sie die Sprache Ihrer Area (Richtlinien, Produktnamen) und Ihre „Markenstimme“.
- Vermischt: Beginnen Sie breit und fügen Sie dann hochpräzise Daten für die Absichten mit der größten Ablenkung oder den größten Auswirkungen auf den Umsatz hinzu.
Wenn Sie eine schnelle Auffahrt benötigen, bietet Shaip diese an Sammlung von Äußerungen und handelsübliche Sprach-/Chat-Datensätze in vielen Sprachen; Sehen Sie sich die Fallstudie für die Einführung eines mehrsprachigen Assistenten an.
Checkliste für die Umsetzung
- Definieren Sie Absichten und Entitäten anhand von Beispielen und Negativ Fälle
- Autor abwechslungsreich, ausgewogen Äußerungen für jede Absicht (klein anfangen, wöchentlich wachsen)
- Fügen Sie vor dem Coaching Validatoren (Sprache, Kauderwelsch, Duplikate, Regex) hinzu
- Aufstellen Überprüfungsschleifen vom echten Verkehr; Befördern Sie mehrdeutige Elemente zum Coaching
- Schiene Absicht Gesundheit und Kollisionen; mit neuen Äußerungen beheben
- Führen Sie eine Neubewertung nach Kanal/Gebietsschema durch, um Abweichungen frühzeitig zu erkennen
Wie Shaip helfen kann
- Benutzerdefinierte Sammlung und Kennzeichnung von Äußerungen (Chat + Stimme) mit Validatoren, um die Qualität hoch zu halten.
- Gebrauchsfertige Datensätze über 150 Sprachen/Varianten für schnelles Bootstrapping.
- Laufende Überprüfungsprogramme die Stay-Verkehr sicher in Trainingsdaten mit hohem Signalwert umwandeln (PII-Steuerung).
Entdecken Sie unsere Mehrsprachigkeit Fallstudie zur Sammlung von Äußerungen Und Beispieldatensätze.
