Neuer KI-Agent lernt, CAD zu verwenden, um 3D-Objekte aus Skizzen zu erstellen

Computergestütztes Design (CAD) ist die bevorzugte Methode für die Gestaltung der meisten heutigen physischen Produkte. Ingenieure verwenden CAD, um 2D-Skizzen in 3D-Modelle umzuwandeln, die sie dann testen und verfeinern können, bevor sie eine endgültige Model an eine Produktionslinie senden. Allerdings ist die Software program bekanntermaßen kompliziert zu erlernen, da Tausende von Befehlen zur Auswahl stehen. Um die Software program wirklich zu beherrschen, braucht es viel Zeit und Übung.

MIT-Ingenieure möchten die CAD-Lernkurve mit einem KI-Modell vereinfachen, das CAD-Software program ähnlich wie ein Mensch verwendet. Ausgehend von einer 2D-Skizze eines Objekts erstellt das Modell durch Klicken auf Schaltflächen und Dateioptionen schnell eine 3D-Model, ähnlich wie ein Ingenieur die Software program verwenden würde.

Das MIT-Staff hat einen neuen Datensatz namens VideoCAD erstellt, der mehr als 41.000 Beispiele dafür enthält, wie 3D-Modelle in CAD-Software program erstellt werden. Durch das Lernen aus diesen Movies, die veranschaulichen, wie verschiedene Formen und Objekte Schritt für Schritt konstruiert werden, kann das neue KI-System nun CAD-Software program ähnlich wie ein menschlicher Benutzer bedienen.

Mit VideoCAD strebt das Staff einen KI-gestützten „CAD-Co-Piloten“ an. Sie stellen sich vor, dass ein solches Software nicht nur 3D-Versionen eines Entwurfs erstellen, sondern auch mit einem menschlichen Benutzer zusammenarbeiten könnte, um nächste Schritte vorzuschlagen oder automatisch Bausequenzen auszuführen, deren manuelles Durchklicken sonst mühsam und zeitaufwändig wäre.

„KI bietet die Likelihood, die Produktivität von Ingenieuren zu steigern und CAD für mehr Menschen zugänglicher zu machen“, sagt Ghadi Nehme, ein Doktorand an der Fakultät für Maschinenbau des MIT.

„Das ist wichtig, weil es die Hürde für den Einstieg ins Design senkt und Menschen ohne jahrelange CAD-Ausbildung dabei hilft, einfacher 3D-Modelle zu erstellen und ihrer Kreativität freien Lauf zu lassen“, fügt Faez Ahmed, außerordentlicher Professor für Maschinenbau am MIT, hinzu.

Ahmed und Nehme werden zusammen mit dem Doktoranden Brandon Man und dem Postdoktoranden Ferdous Alam ihre Arbeit auf der Convention on Neural Info Processing Techniques (NeurIPS) im Dezember vorstellen.

Klick für Klick

Die neue Arbeit des Groups erweitert die jüngsten Entwicklungen bei KI-gesteuerten Benutzeroberflächen-Agenten (UI-Agenten) – Instruments, die darauf trainiert sind, mithilfe von Softwareprogrammen Aufgaben auszuführen, wie beispielsweise das automatische Sammeln von Informationen on-line und deren Organisation in einer Excel-Tabelle. Ahmeds Gruppe fragte sich, ob solche UI-Agenten für die Verwendung von CAD konzipiert werden könnten, das viel mehr Options und Funktionen umfasst und weitaus kompliziertere Aufgaben mit sich bringt, als der durchschnittliche UI-Agent bewältigen kann.

In ihrer neuen Arbeit wollte das Staff einen KI-gesteuerten UI-Agenten entwerfen, der die Zügel des CAD-Programms übernimmt, um Klick für Klick eine 3D-Model einer 2D-Skizze zu erstellen. Dazu untersuchte das Staff zunächst einen vorhandenen Datensatz von Objekten, die von Menschen im CAD entworfen wurden. Jedes Objekt im Datensatz enthält die Abfolge übergeordneter Entwurfsbefehle wie „Linie skizzieren“, „Kreis“ und „Extrudieren“, die zum Erstellen des endgültigen Objekts verwendet wurden.

Das Staff erkannte jedoch, dass diese hochrangigen Befehle allein nicht ausreichten, um einem KI-Agenten beizubringen, CAD-Software program tatsächlich zu verwenden. Ein echter Agent muss auch die Particulars hinter jeder Aktion verstehen. Zum Beispiel: Welchen Skizzenbereich soll ausgewählt werden? Wann soll vergrößert werden? Und welcher Teil einer Skizze soll extrudiert werden? Um diese Lücke zu schließen, entwickelten die Forscher ein System, um Befehle auf hoher Ebene in Interaktionen mit der Benutzeroberfläche zu übersetzen.

„Nehmen wir zum Beispiel an, wir haben eine Skizze erstellt, indem wir eine Linie von Punkt 1 nach Punkt 2 gezogen haben“, sagt Nehme. „Wir haben diese Aktionen auf hoher Ebene in Benutzeroberflächenaktionen übersetzt, das heißt wir sagen: Gehen Sie von dieser Pixelposition aus, klicken Sie und gehen Sie dann zu einer zweiten Pixelposition und klicken Sie, während die Operation „Linie“ ausgewählt ist.“

Am Ende erstellte das Staff über 41.000 Movies von von Menschen entworfenen CAD-Objekten, von denen jedes in Echtzeit anhand der spezifischen Klicks, Mausbewegungen und anderen Tastaturaktionen beschrieben wird, die der Mensch ursprünglich ausgeführt hat. Anschließend haben sie alle diese Daten in ein von ihnen entwickeltes Modell eingespeist, um Zusammenhänge zwischen UI-Aktionen und der CAD-Objektgenerierung zu lernen.

Sobald das neue KI-Modell mit diesem Datensatz, den sie VideoCAD nennen, trainiert wurde, könnte es eine 2D-Skizze als Eingabe verwenden und die CAD-Software program direkt steuern, indem es auf Werkzeuge klickt, zieht und sie auswählt, um die vollständige 3D-Type zu konstruieren. Die Komplexität der Objekte reichte von einfachen Klammern bis hin zu komplizierteren Hausentwürfen. Das Staff trainiert das Modell an komplexeren Formen und geht davon aus, dass sowohl das Modell als auch der Datensatz eines Tages CAD-Copiloten für Designer in einem breiten Spektrum von Bereichen ermöglichen könnten.

„VideoCAD ist ein wertvoller erster Schritt hin zu KI-Assistenten, die dabei helfen, neue Benutzer einzubinden und die sich wiederholende Modellierungsarbeit zu automatisieren, die vertrauten Mustern folgt“, sagt Mehdi Ataei, der nicht an der Studie beteiligt conflict und leitender Forschungswissenschaftler bei Autodesk Analysis ist, das neue Design-Softwaretools entwickelt. „Dies ist eine frühe Grundlage, und ich würde mich über Nachfolger freuen, die mehrere CAD-Systeme, umfangreichere Vorgänge wie Baugruppen und Einschränkungen sowie realistischere, chaotischere menschliche Arbeitsabläufe umfassen.“

Neuer KI-Agent lernt, CAD zu verwenden, um 3D-Objekte aus Skizzen zu erstellen | MIT-Nachrichten

Von admin

Schreibe einen Kommentar Antworten abbrechen

Versäumt

Neues Pixel 10a-Teaser-Video präsentiert neue Farben

Warum ist mein Code so langsam? Ein Leitfaden zur Py-Spy-Python-Profilerstellung

Anthropic Superbowl Advertisements täuschen OpenAI vor; Sam Altman schimpft weiter

Tech Stack für die Vibe-Codierung moderner Anwendungen

About

Categories

Tags

Recent Post

Neues Pixel 10a-Teaser-Video präsentiert neue Farben

Warum ist mein Code so langsam? Ein Leitfaden zur Py-Spy-Python-Profilerstellung

Von admin

Ähnlicher Beitrag

Schreibe einen Kommentar Antworten abbrechen

Versäumt