PALO ALTO, 8. April 2025-Vectara, eine Plattform für die Technology (RAG) und Assistenten für Abrufe von Unternehmen, die heute die Einführung von Open Rag Eval, seinem Open-Supply-Rag-Bewertungsrahmen, angekündigt hat.
Der in Verbindung mit Forschern der College of Waterloo entwickelte Rahmen ermöglicht es Unternehmensnutzern, die Antwortqualität für jede Komponente zu bewerten
und Konfiguration ihrer Lappensysteme, um die Genauigkeit und Zuverlässigkeit ihrer KI -Agenten und anderer Werkzeuge schnell und konsequent zu optimieren.
Der Gründer und CEO von Vectara, Amr Awadallah, sagte: „KI -Implementierungen – insbesondere für Agentenlag -Systeme – werden von Tag zu Tag komplexer. Anspruchsvolle Workflows, wob
Leistung und Qualität. Durch die Zusammenarbeit mit Professor Jimmy Lin und seinem außergewöhnlichen Group an der College of Waterloo geht Vectara diese Herausforderung proaktiv mit unserer Open Rag -Bewertung in Angriff. “
Professor Jimmy Lin ist der David R. Cheriton -Vorsitzende an der Faculty of Data an der Universität von Waterloo. Er und Mitglieder seines Groups sind Pioniere bei der Erstellung von erstklassigen Benchmarks und Datensätzen zur Bewertung des Informationsabrufs.
Professor Lin sagte: „KI -Agenten und andere Systeme werden für die heutige Funktionsweise von Unternehmen immer zentraler. und Zuverlässigkeit von KI -Systemen auf der ganzen Welt. “
Open RAG EVAL ist so konzipiert, dass die Genauigkeit und Nützlichkeit der Antworten an Benutzeranforderungen je nach Komponenten und Konfiguration eines Enterprise Rag -Stacks ermittelt werden. Das Rahmen bewertet die Antwortqualität nach zwei wichtigen Metrikkategorien: Abrufmetriken und Generationsmetriken.
Benutzer von Open Rag Eval können diese erste Iteration der Plattform nutzen, um Entwickler über diese Systeme zu informieren, wie eine Rag -Pipeline entlang ausgewählter Metriken ausgeführt wird. Durch die Überprüfung dieser Metrikkategorien kann ein Bewerter ansonsten „Black-Field“ -Systeme auf separaten oder aggregierten Bewertungen vergleichen.
Eine niedrige Relevanzbewertung kann beispielsweise darauf hinweisen, dass der Benutzer die Abrufpipeline des Techniques aufrüsten oder neu konfigurieren sollte oder dass im Datensatz keine relevanten Informationen vorhanden sind. In der Zwischenzeit kann es sein, dass das System eine stärkere LLM verwenden sollte-in Fällen, in denen beispielsweise die generierte Antwort Halluzinationen beinhaltet-oder dass der Benutzer seine Lumpenaufforderungen aktualisieren sollte.
Das neue Framework ist so konzipiert, dass sie eine nahtlose Bewertung einer Rag -Pipeline, einschließlich der Genai -Plattform von Vectara oder einer anderen benutzerdefinierten Lag -Lösung.
Open Rag Eval hilft KI-Groups bei der Lösung solcher realen Bereitstellungs- und Konfigurationsherausforderungen wie:
● Ob Sie feste Token -Chunking oder semantisches Chunking verwenden;
● Ob Sie Hybrid- oder Vektorsuche verwenden und welchen Wert für Lambda in Hybrid verwendet werden soll
Bereitstellungen suchen;
● Welche LLM zu verwenden und wie Sie Lappeneingabeaufforderungen optimieren können?
● Welche Schwelle für die Halluzinationserkennung und -korrektur und mehr verwendet werden.
Vectaras Entscheidung, Open Rag Eval als Open-Supply-Software als Open-Supply-Software zu starten, spiegelt die Erfolgsgeschichte des Unternehmens bei der Festlegung anderer Branchenstandards in der Halluzinationsminderung mit seinem Open-Supply-Hughes Hallucination Analysis Mannequin (HHEM) wider, das über 3,5 Millionen Mal vor dem Eindringen heruntergeladen wurde.
Wenn die KI -Systeme in der Komplexität weiter wachsen – insbesondere mit Agentic on the zunehmend – und sich weiterentwickeln, benötigen Organisationen offene und erweiterbare AI -Bewertungsrahmen, um die richtigen Entscheidungen zu treffen. Auf diese Weise können Unternehmen auch ihre eigenen Daten nutzen, ihre eigenen Metriken hinzufügen und ihre vorhandenen Systeme gegen aufkommende various Optionen messen. Vectaras offener und erweiterbarer Ansatz wird dazu beitragen, diese Dynamik vorzubleiben, indem sie laufende Beiträge der KI-Neighborhood ermöglichen und gleichzeitig sicherstellen, dass die Implementierung der einzelnen vorgeschlagenen und beigesteuerten Bewertungsmetrik für Überprüfung und Verbesserung intestine verstanden und offen ist.