Generalisten können auch tief graben

In der Autor Highlight -Serie chatten die TDS -Redakteure mit Mitgliedern unserer Neighborhood über ihren Karriereweg in Information Science und KI, ihr Schreiben und ihre Inspirationsquellen. Heute sind wir begeistert, unser Gespräch mit zu teilen Ida Silfverskiöld.

IDA ist Generalist, ausgebildet als Ökonom und Autodidakt in Software program Engineering. Sie hat einen professionellen Hintergrund im Produkt- und Marketingmanagement, was bedeutet, dass sie eine seltene Mischung aus Produkt-, Advertising- und Entwicklungsfähigkeiten hat. In den letzten Jahren unterrichtete und baute sie im Bereich LLM, NLP und Pc Imaginative and prescient in Bereiche wie agenten KI, Strategien für Ketten und die Wirtschaftlichkeit von Internet hosting -Modellen ein.

Sie haben die Wirtschaft studiert, dann gelernt, zu codieren und durch Produkt, Wachstum und jetzt praktisches KI-Gebäude zu bewegt. Welche Perspektive gibt Ihnen dieser Generalistenweg, die Ihnen die Spezialisten manchmal vermissen?

Ich bin mir nicht sicher.

Die Menschen sehen Generalisten als flaches Wissen, aber Generalisten können auch tief graben.

Ich sehe Generalisten als Menschen mit mehreren Interessen und den Drang, das Ganze zu verstehen, nicht nur einen Teil. Als Generalist betrachten Sie die Technologie, den Kunden, die Daten, den Markt, die Kosten der Architektur usw. Es gibt Ihnen einen Vorteil, um sich über Themen zu bewegen und trotzdem gute Arbeit zu leisten.

Ich sage nicht, dass Spezialisten dies nicht können, aber Generalisten neigen dazu, sich schneller anzupassen, weil sie es gewohnt sind, Dinge schnell aufzuheben.

Sie haben in letzter Zeit viel über Agentensysteme geschrieben. Wann übertreffen „Agenten“ einfachere LLM + -Blag -Muster und wann überkomplizieren wir Dinge?

Es hängt vom Anwendungsfall ab, aber im Allgemeinen werfen wir KI in viele Dinge, die es wahrscheinlich nicht brauchen. Wenn Sie das System programmatisch steuern können, sollten Sie es tun. LLMs eignen sich hervorragend, um die menschliche Sprache in etwas zu übersetzen, das ein Pc verstehen kann, aber sie führen auch Unvorhersehbarkeit vor.

Das Hinzufügen eines Agenten bedeutet das Hinzufügen von Kosten. Daher ist es jedoch keine gute Idee, einen Agenten zu haben. Sie können um sie herum arbeiten, indem Sie kleinere Modelle als Router verwenden (dies fügt jedoch Arbeit hinzu). Ich habe einmal einen Agenten zu einem Lappensystem hinzugefügt, weil ich wusste, dass es Fragen zum Aufbau von „Handeln“ geben würde. Es hängt additionally wieder vom Anwendungsfall ab.

Wenn Sie sagen, dass Agentic AI braucht “Bewertungen”Was ist Ihre Liste der Metriken? Und wie entscheiden Sie, welche Sie verwenden sollen?

Ich würde nicht sagen, dass Sie immer Evals brauchen, aber Unternehmen werden nach ihnen fragen. Es ist additionally intestine zu wissen, welche Groups für die Produktqualität messen. Wenn ein Produkt von vielen Menschen verwendet wird, stellen Sie sicher, dass Sie einige an Ort und Stelle haben. Ich habe hier ziemlich viel geforscht, um die definierten Rahmenbedingungen und Metriken zu verstehen.

Generische Metriken reichen jedoch wahrscheinlich nicht aus. Sie benötigen ein paar benutzerdefinierte für Ihren Anwendungsfall. Die Evale unterscheiden sich additionally nach Anwendung.

Für einen Codierungs -Copilot können Sie nachverfolgen, wie viel Prozent des Abschlusses ein Entwickler (Akzeptanzrate) akzeptiert und ob das vollständige Chat das Ziel erreicht hat (Vollständigkeit).

Für Handelsagenten können Sie messen, ob der Agent die richtigen Produkte ausgewählt hat und ob die Antworten auf den Daten des Geschäfts beruhen.

Sicherheits- und Sicherheitsmetriken sind ebenfalls wichtig, wie z. B. Voreingenommenheit, Toxizität und wie einfach es ist, das System zu brechen (Jailbreaks, Datenlecks).

Für Rag siehe meinen Artikel, in dem ich die üblichen Metriken aufschlüsse. Persönlich habe ich bisher nur Kennzahlen für Rag eingerichtet.

Es könnte interessant sein, abzubilden, wie unterschiedliche KI -Apps Evals in einem Artikel einrichten. Zum Beispiel Shopify Sidekick für Handelsagenten und andere Instrumente wie Rechtshilfsmittel für juristische Forschungsmittel.

In deinem Agentenlappenanwendungen Artikel, Sie haben einen Slack -Agenten erstellt, der Unternehmenskenntnisse berücksichtigt (mit Lamaindex und Modal). Welche Designauswahl battle mehr als erwartet?

In dem Abrufanteil bleiben Sie stecken, speziell zu chunkeln. Wenn Sie mit Lappenanwendungen arbeiten, teilen Sie den Prozess in zwei Teile auf. Der erste Teil besteht darin, die richtigen Informationen zu holen und sie richtig zu machen, ist wichtig, da Sie einen Agenten mit zu viel irrelevanten Informationen nicht überladen können. Um es präzise zu machen, müssen die Stücke für die Suchanfrage ziemlich klein und related sein.

Wenn Sie jedoch die Stücke zu klein machen, riskieren Sie, dem LLM einen zu wenig Kontext zu geben. Bei zu großen Stücken kann das Suchsystem ungenau werden.

Ich habe ein System eingerichtet, das basierend auf der Artwork des Dokuments geschnitten hat, aber im Second habe ich eine Idee, die Kontextausdehnung nach dem Abrufen zu verwenden.

Eine weitere Designauswahl, die Sie beachten müssen, ist, dass das Abrufen zwar häufig von der Hybridsuchung profitiert, dies jedoch möglicherweise nicht ausreicht. Semantische Suche kann Dinge verbinden, die die Frage beantworten, ohne den genauen Wortlaut zu verwenden, während spärliche Methoden genaue Schlüsselwörter identifizieren können. Aber spärliche Methoden wie BM25 basieren standardmäßig auf Token-basiert, sodass einfacher BM25 Substrings nicht übereinstimmen.

Wenn Sie additionally auch nach Substrings suchen möchten (Teil von Produkt -IDs, so etwas), müssen Sie eine Suchschicht hinzufügen, die auch teilweise Übereinstimmungen unterstützt.

Es gibt noch mehr, aber ich riskiere, dass dies zu einem ganzen Artikel wird, wenn ich weitermache.

In Ihren Beratungsprojekten in den letzten zwei Jahren sind sich die Probleme für Ihre Kunden am häufigsten aufgetaucht, und wie gehen Sie mit ihnen an?

Die Probleme, die ich sehe, sind, dass die meisten Unternehmen nach etwas Sitten suchen, was für Berater very best ist, aber das Aufbau im Haus ist voller Komplexität, insbesondere für Menschen, die es vorher nicht getan haben. Ich habe diese 95% -Zahlen von der gesehen MIT -Studie über Projekte, die versagen, und ich bin nicht überrascht. Ich denke, Berater sollten in bestimmten Anwendungsfällen intestine sein, in denen sie das Produkt schnell implementieren und optimieren können, nachdem sie bereits gelernt haben, wie man es macht. Aber wir werden sehen, was passiert.

Sie haben auf TDS über so viele verschiedene Themen geschrieben. Woher kommen Ihre Artikelideen? Kundenarbeit, Instruments, die Sie ausprobieren möchten, oder Ihre eigenen Experimente? Und welches Thema oder welches Downside ist für Sie momentan erstaunlich?

Ein bisschen von allem, ehrlich gesagt. Die Artikel helfen mir auch, mein eigenes Wissen zu erden und fehlende Stücke auszufüllen, die ich möglicherweise noch nicht selbst recherchiert habe. Im Second recherchiere ich ein wenig darüber, wie kleinere Modelle (mittelgroße Modelle, etwa 3b-7b) in Agentensystemen, Sicherheit und insbesondere in der Verbesserung des Lappen verwendet werden können.

Vergrößerung: Was sollte ein nicht offenes Fähigkeitsteam in den nächsten 12 bis 18 Monaten (technisch oder kulturell) anbauen, um eher Ai-produktiv als nur AI-Purchase zu werden?

Lernen Sie wahrscheinlich, im Raum aufzubauen (insbesondere für Geschäftsleute): Nur ein LLM zu bekommen, um etwas konsequentes zu tun, ist ein Weg, um zu verstehen, wie unvorhersehbare LLMs sind. Es macht dich ein bisschen bescheidener.

Um mehr über Idas Arbeit zu erfahren und mit ihren neuesten Artikeln auf dem Laufenden zu bleiben, können Sie ihr folgen Tds oder LinkedIn.

Generalisten können auch tief graben

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Nano Banana 2 ist da! Kleiner, schneller, günstiger

5 nützliche Python-Skripte für automatisierte Datenqualitätsprüfungen

Entwerfen von Daten- und KI-Systemen, die in der Produktion bestehen

Was sind elektronische Patientenakten (EHR)?

About

Categories

Tags

Recent Post

Nano Banana 2 ist da! Kleiner, schneller, günstiger

5 nützliche Python-Skripte für automatisierte Datenqualitätsprüfungen

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt