Internet Scraping mit LLMs und ScrapeGraphAI

Internet-Scraping ist zu einem wichtigen Werkzeug geworden, um nützliche Informationen von den verfügbaren Web sites zu sammeln. Von allen verfügbaren Instruments ist ScrapeGraphAI einzigartig, da es Diagramme identifizieren und künstliche Intelligenz für das Internet-Scraping nutzen kann. Dieser Artikel untersucht die Funktionen von ScrapeGraphAI, bietet eine Schritt-für-Schritt-Anleitung für die Implementierung und geht auf häufige Herausforderungen ein. Unabhängig davon, ob Sie neu im Internet-Scraping sind oder ein erfahrener Benutzer, dieser Leitfaden vermittelt Ihnen das Wissen, um ScrapeGraphAI effektiv zu nutzen.

Lernziele

Verstehen Sie die wichtigsten Funktionen und Vorteile der Verwendung von ScrapeGraphAI für Internet Scraping.
Erfahren Sie, wie Sie ScrapeGraphAI für Ihre Scraping-Projekte einrichten und konfigurieren.
Sammeln Sie praktische Erfahrungen mit einer Schritt-für-Schritt-Implementierungsanleitung zum Scrapen von Webdaten.
Erkennen Sie die Herausforderungen und Überlegungen bei der effektiven Nutzung von ScrapeGraphAI.
Entdecken Sie, wie Sie Scraped-Daten in nützliche Formate wie Excel oder CSV exportieren.

Dieser Artikel wurde im Rahmen der veröffentlicht Information Science-Blogathon.

Was ist ScrapeGraphAI?

Das Entfernen von Produktlisten bei Amazon kann eine entmutigende Aufgabe sein. Normalerweise könnten Sie Geld ausgeben 200–300 Zeilen Code zum Einrichten von HTTP-Anfragen, Parsen von HTML mit Selektoren oder Regex, Umgang mit Paginierung, Umgang mit Anti-Bot-Maßnahmen und mehr. Aber mit ScrapeGraphAIkönnen Sie ein KI-Modell anweisen (unterstützt von große Sprachmodelle), um genau das zu extrahieren, was Sie brauchen – oft in nur wenigen Zeilen Python.

Haftungsausschluss:

Die Nutzungsbedingungen von Amazon verbieten in der Regel das Scraping oder die Datenextraktion ohne ausdrückliche Genehmigung.
Dieser Artikel ist lediglich eine Demonstration der Fähigkeiten von ScrapeGraphAI auf einer einzelnen Amazon-Seite für den Bildungs- oder persönlichen Gebrauch.
Groß angelegtes oder kommerzielles Scraping von Amazon kann rechtlich und technisch riskant sein.

Warum sollten Sie sich für ScrapeGraphAI für Internet Scraping entscheiden?

ScrapeGraphAI revolutioniert das Internet-Scraping, indem es den Fokus von komplexer Codierung auf intuitive Anweisungen in natürlicher Sprache verlagert und so die Datenextraktion schneller, einfacher und effizienter macht.

Deutliche Reduzierung des Codes

Beim herkömmlichen Scraping können Sie Anfragen, BeautifulSoup, Selenium oder andere Bibliotheken verwenden. Ein typisches Skript kann leicht auf 200–300 Zeilen ansteigen, wenn Sie Fehlerbehandlung, CSS-Selektoren, Paginierung und mehr berücksichtigen. Im Gegensatz dazu verwendet ScrapeGraphAI Eingabeaufforderungen in natürlicher Sprache, um zu beschreiben, was Sie wollen – was bedeutet, dass der Großteil der schweren Arbeit von einem KI-Modell im Hintergrund erledigt wird.

Schnelleres Prototyping

Da Sie nicht für jedes HTML-Ingredient manuell Selektoren erstellen oder sich um kleinere DOM-Änderungen kümmern müssen, können Sie in wenigen Minuten einen Prototyp erstellen.

Ansatz auf höherer Ebene

Indem Sie Ihre Datenanforderungen in alltäglichem Englisch beschreiben, konzentrieren Sie sich auf das, was Sie wollen, und nicht darauf, wie Sie es bekommen. Dieser Ansatz kann gegenüber kleinen Layoutänderungen robuster sein als spröde CSS- oder XPath-Abfragen (obwohl Neugestaltungen der Web site immer noch jeden automatisierten Ansatz zerstören können).

Einfache Wartung

Wenn Amazon (oder eine andere Web site) ihr Format ändert, müssen Sie häufig erneut im HTML-Code stöbern, um die richtigen Selektoren zu finden. Mit ScrapeGraphAI aktualisieren Sie Ihre Eingabeaufforderung meist nur, wenn sich die Überschriften oder die Seitenstruktur ändern.

Erste Schritte mit ScrapeGraphAI

Der Beginn Ihrer Internet-Scraping-Reise mit ScrapeGraphAI ist unkompliziert und problemlos. Durch die Nutzung der intuitiven Benutzeroberfläche und der KI-gestützten Funktionen können Sie die üblichen Komplexitäten herkömmlicher Scraping-Setups überspringen.

Die folgenden Schritte führen Sie durch den Erwerb des ScrapeGraphAI-API-Schlüssels, die Set up der erforderlichen Instruments und die Einrichtung Ihrer Umgebung für die effiziente Datenextraktion in nur wenigen Schritten. Ganz gleich, ob Sie ein erfahrener Entwickler oder ein Anfänger sind, Sie werden feststellen, dass der optimierte Prozess von ScrapeGraphAI eine entscheidende Neuerung für die Bewältigung von Datenextraktionsaufgaben darstellt.

Gehen Sie zu: ScrapeGraphAI
Klicken Sie auf: Erste Schritte
Anmelden: Sie können sich mit Ihrem Google-Konto anmelden.
Kopieren Sie Ihren API-Schlüssel: Auf der nächsten Seite wird Ihr API-Schlüssel angezeigt. Kopieren Sie es einfach.

Hinweis: ScrapeGraphAI bietet 100 kostenlose Credit um Ihnen den Einstieg zu erleichtern!

Schritt-für-Schritt-Anleitung zur Implementierung

Im Folgenden zeigen wir Ihnen, wie Sie die Suchergebnisseite für Nachttische von Amazon durchsuchen und mit nur wenigen Codezeilen Particulars wie Titel, Preis, Bewertung, Anzahl der Bewertungen und Lieferinformationen extrahieren.

Schritt 1: Abhängigkeiten installieren

Bevor Sie beginnen, müssen Sie die erforderlichen Bibliotheken installieren. Diese stellen die für Internet-Scraping und Internet-Scraping erforderlichen Instruments bereit Datenverarbeitung.

pip set up --quiet -U langchain-scrapegraph pandas

Langchain-Scrapegraph: Das offizielle Paket für die Python-Instruments von ScrapeGraphAI.
Pandas: Wir verwenden dies, um die Ergebnisse in einer DataFrame- oder Excel-Datei zu speichern.

Schritt 2: Importieren und konfigurieren Sie Ihren API-Schlüssel

Um mit ScrapeGraphAI interagieren zu können, müssen Sie Ihren API-Schlüssel einrichten. Wenn sich der Schlüssel noch nicht in Ihrer Umgebung befindet, werden Sie aufgefordert, ihn sicher einzugeben.

import os
import getpass
import pandas as pd
from langchain_scrapegraph.instruments import SmartScraperTool

# If you have not set your API key in your atmosphere, you may be prompted for it:
if not os.environ.get("SGAI_API_KEY"):
    os.environ("SGAI_API_KEY") = getpass.getpass("ScrapeGraph AI API key:n")

Schritt 3: Erstellen Sie das SmartScraperTool

Dieser Schritt initialisiert den ScrapeGraphAI SmartScraper, der als Herzstück des Scraping-Prozesses dient.

smartscraper = SmartScraperTool()

Diese eine Codezeile ermöglicht Ihnen den Zugriff auf einen KI-basierten Internet-Scraper, der eine einfache Eingabeaufforderung akzeptiert.

Schritt 4: Schreiben Sie die Eingabeaufforderung

Anstatt Zeilen mit CSS- oder XPath-Selektoren zu schreiben, teilen Sie dem Instrument in einfachem Englisch mit, was es tun soll. Zum Beispiel:

scraper_prompt = """
1. Go to the Amazon search outcomes web page: https://www.amazon.in/s?ok=bedside+desk
2. For every product itemizing, extract:
   - Product Title
   - Worth
   - Star Ranking
   - Variety of Scores
   - Supply particulars
3. Return the outcomes as a JSON array of objects, every with keys:
   "title", "value", "ranking", "num_ratings", "supply".
4. Ignore sponsored listings if doable.
"""

Fühlen Sie sich frei, Anweisungen hinzuzufügen oder zu entfernen. Sie könnten auch „Produktlink“ oder „Prime-Berechtigung“ angeben.

Schritt 5: Rufen Sie den Scraper auf

Wenn die Eingabeaufforderung und der Scraper bereit sind, können Sie nun die Scraping-Aufgabe ausführen.

search_url = "https://www.amazon.in/s?ok=bedside+desk"

outcome = smartscraper.invoke({
    "user_prompt": scraper_prompt,
    "website_url": search_url
})

print("Scraped Outcomes:n", outcome)

Was Sie zurückerhalten, ist normalerweise eine Liste (Array) von Wörterbüchern. Jedes Wörterbuch enthält die von Ihnen angeforderten Daten: Titel, Preis, Bewertung, Anzahl_Bewertungen, Lieferung usw.

Beispiel (vereinfacht):

(
  {
    "title": "XYZ Interiors Wood Bedside Desk...",
    "value": "₹1,499",
    "ranking": "4.3 out of 5 stars",
    "num_ratings": "1,234",
    "supply": "Get it by Monday, January 10"
  },
  ...
)

Ausgabe:

outcome
{"merchandise": ({"title": "Studio Kook SEZ Couch Mate Engineered Wooden Facet Desk 
(Junglewood, Matte End)",
'ranking: 4.5 out of 5 stars',
"num_ratings": "19",
'supply': 'Get it Monday 6 January Wednesday 8 January",
"product_link":
"3.0.in/dio-oo-oo-Fi/"}, {"title":"ULD CRAFTS Vintage Wood Fold-able Espresso 
Desk/Facet Desk/Finish Desk/Tea Desk/Plant Stand/St 'value': '979',
'ranking': '4.0 out of 5 stars',
'n scores" '14,586,
'supply': "FREE supply Thu, 2 Jan on high of things fulfilled by Amazon or quickest
supply Tomorrow, 'product_link":"https://mazon.in/SSD-CRAFTS-Residul-fold-ale-
humáture/de/2692716056"},
('title': 'Firebees Trendy Wood Desk, Wood Bedside Desk for Mattress Room,
'nun scores": "292",
'supply': "Get it by 6-7 Jan",
'product_link":"//amazon.joedside-lansstand-millexten/da/GAMIX"),
('title': 'Delon Wood Middle Desk, Finish Couch, Bedside Desk, Nook Espresso Desk 
with Strong End Area 'value': '49",
"ranking": "3.6 out of 5 stars',
'n scores": "63",
'supply' "Get it by 67 Jan",
'product_link': '//zon.in/ein-Bedside-furniture-Storage-Bed room/da/55"},
{"title":"ETIQUETTE ART Retro Bookcase Nightstand, Finish Desk, Mattress Facet Desk for 
Small Areas Journal Star
'value': '99,
'ranking': '3.8 out of 5 stars',
num scores": "15",
'supply': "Get it by Tuesday, January 7,
'product_link":"/APHYAL"}}}
Output is truncated. View assialer or open in a tots Modify cell output

Schritt 6: Non-compulsory: Export nach Excel oder CSV

Wenn Sie Ihre Ergebnisse speichern möchten, macht Pandas es Ihnen leicht:

df = pd.DataFrame(outcome)
df.to_excel("bedside_tables.xlsx", index=False)
print("Information exported to bedside_tables.xlsx")

Vorteile der Verwendung von ScrapeGraphAI

Nachfolgend sind die Vorteile der Verwendung von ScrapeGraphAI aufgeführt, die es zu einer herausragenden Wahl für effizientes und intelligentes Internet-Scraping machen.

Einfachheit

Herkömmliches Scraping mit Anfragen + BeautifulSoup oder Selenium kann leicht auf 200–300 Zeilen anschwellen, wenn man Fehlerbehandlung, Paginierung, dynamisches Laden und Datenanalyse berücksichtigt.
Mit ScrapeGraphAI können Sie oft das gleiche Ergebnis in weniger als 20 Zeilen (manchmal sogar weniger als 10) erzielen.

Zeitersparnis

Sie müssen nicht jeden CSS-Selektor oder XPath herausfinden. Sie sagen einfach: „Extrahieren Sie den Titel, den Preis, die Bewertung…“
Das LLM führt hinter den Kulissen das umfangreiche HTML-Parsing durch.

Schnelle Iteration

Anstatt die komplexe Logik für jeden neuen Datenpunkt neu zu schreiben, formulieren Sie einfach Ihre Eingabeaufforderung um, um die zusätzlichen Felder zu erfassen, die Sie benötigen.

Sich mit der Seite weiterentwickeln

Wenn Amazon Klassennamen ändert oder die HTML-Struktur geringfügig ändert, benötigen Sie möglicherweise nur eine kleine Anpassung der Eingabeaufforderung, anstatt ganze CSS- oder XPath-Abfragen neu zu schreiben.

Herausforderungen und Überlegungen

Im Folgenden finden Sie die Herausforderungen und Überlegungen, die Sie bei der Verwendung von ScrapeGraphAI berücksichtigen sollten, um ein nahtloses und effektives Internet-Scraping sicherzustellen.

Die Nutzungsbedingungen von Amazon

Amazon verbietet grundsätzlich die automatisierte Datenextraktion. Wiederholtes oder großflächiges Schaben kann zu einer Sperrung oder rechtlichen Konsequenzen führen.
Wenn Sie vorhaben, über kleine Checks hinauszugehen, holen Sie eine ausdrückliche Genehmigung ein oder ziehen Sie einen offiziellen Datenfeed in Betracht.

CAPTCHAs / Anti-Bot-Maßnahmen

Amazon kann ungewöhnliche Verkehrsmuster erkennen. Wenn Sie blockiert werden, benötigen Sie möglicherweise fortschrittliche Lösungen: rotierende Proxys, Headless-Browser oder sorgfältig getimte Anfragen.

Datenmengen

Wenn Sie Tausende von Einträgen auf mehreren Seiten wünschen, stellen Sie sicher, dass Ihr Ansatz strong ist, um mit Paginierung und großen Datenmengen umzugehen.
Achten Sie auch auf Ihre ScrapeGraphAI-Credit für eine groß angelegte Nutzung.

Dynamischer Inhalt

Wenn bestimmte Informationen (z. B. Versand- oder Prime-Abzeichen) dynamisch über JavaScript geladen werden, werden sie bei einem statischen Ansatz möglicherweise übersehen. Um jedes Element zu erfassen, sind möglicherweise fortgeschrittenere Techniken (wie Selenium oder Puppeteer) erforderlich.

Abschluss

ScrapeGraphAI bietet einen revolutionären Ansatz für das Internet-Scraping. Anstatt die Parse-Logik mühsam zu programmieren, delegieren Sie diese Komplexität an ein KI-Modell und verkleinern so Ihre Codebasis von Hunderten von Zeilen auf ein prägnantes, leicht lesbares Skript.

Für viele Anwendungsfälle – etwa schnelle Produktvergleiche, einmalige Datenextraktion oder kleine Recherchen – kann dies eine enorme Zeitersparnis bedeuten. Dennoch müssen Sie die Richtlinien von Amazon im Auge behalten, und für groß angelegtes Scraping bleiben fortschrittliche Techniken und Compliance-Überlegungen unerlässlich.

Zusamenfassend:

Wenn Sie nur eine Handvoll Datenpunkte von wenigen Seiten benötigen, kann ScrapeGraph AI Ihr bester Freund sein.
Stellen Sie bei größeren Aufträgen sicher, dass Sie die Nutzungsbedingungen der Web site einhalten und auf den Umgang mit CAPTCHAs oder anderen Anti-Bot-Blockaden vorbereitet sind.

Wichtige Erkenntnisse

ScrapeGraphAI reduziert den Aufwand und die Komplexität des Internet-Scrapings von Hunderten von Codezeilen auf prägnante, auf Eingabeaufforderungen basierende Anweisungen.
Mit Eingabeaufforderungen in natürlicher Sprache können Sie Daten schnell extrahieren, ohne sich um HTML-Selektoren oder Layoutänderungen kümmern zu müssen.
Kleinere Aktualisierungen der Eingabeaufforderungen können Änderungen an der Web site-Struktur bewältigen, wodurch die Notwendigkeit umfangreicher Code-Umschreibungen minimiert wird.
Das Scraping von Amazon in großem Umfang verstößt möglicherweise gegen deren Nutzungsbedingungen und erfordert Lösungen für CAPTCHAs und Anti-Bot-Maßnahmen.
Perfect für die schnelle Datenextraktion in kleinem Maßstab, aber große Projekte erfordern die Einhaltung der Amazon-Richtlinien und robuste Verarbeitungsmechanismen.

Häufig gestellte Fragen

Q1. Ist es authorized, Amazon zu streichen?

A. Das Scraping von Amazon in großem Umfang ist gemäß deren Nutzungsbedingungen im Allgemeinen nicht gestattet. Amazon setzt Anti-Bot-Maßnahmen (CAPTCHAs, IP-Blockierung) ein, um unbefugtes Scraping zu verhindern. Für ein kleines, persönliches Projekt – etwa das Sammeln einer begrenzten Anzahl von Angeboten für Recherchen – ist das vielleicht in Ordnung, aber Sie sollten immer die aktuellen Amazon-Nutzungsbedingungen prüfen und bestätigen, dass Sie die Erlaubnis haben. Großes oder kommerzielles Scraping könnte rechtlich riskant sein und möglicherweise gegen die Richtlinien von Amazon verstoßen.

Q2. Warum brauchen wir ScrapeGraphAI für diese Aufgabe?

A. ScrapeGraphAI vereinfacht den Scraping-Prozess durch die Verwendung von auf Eingabeaufforderungen basierenden Anweisungen mit großen Sprachmodellen unter der Haube. Anstatt HTML manuell mit CSS-Selektoren oder XPath zu analysieren, können Sie die gewünschten Daten („Produkttitel, Preise usw.“) in einfachem Englisch beschreiben. Dies kann Ihnen das Schreiben von 200–300 Zeilen benutzerdefiniertem Parsing-Code ersparen.

Q3. Kann ScrapeGraph AI immer die von mir angeforderten Daten abrufen?

A. Nicht immer. Einige Web sites (einschließlich Amazon) verlassen sich stark auf JavaScript, um Produktinformationen zu laden oder zu aktualisieren. Wenn die Daten dynamisch eingefügt werden und der HTML-Code nicht in der ursprünglichen Quelle vorhanden ist, erkennt ScrapeGraphAI sie möglicherweise nicht über eine einfache HTTP-Anfrage. Darüber hinaus können Web sites Captchas verwenden oder Anfragen blockieren. In solchen Fällen benötigen Sie möglicherweise fortgeschrittene Techniken (Headless-Browser, Proxys usw.).

This autumn. Kann ich mehrere Seiten oder ganze Kategorien durchsuchen?

A. Ja, theoretisch können Sie ScrapeGraphAI anweisen, den Paginierungslinks zu folgen und mehr Ergebnisse zu extrahieren. Beachten Sie jedoch die Ratenbeschränkungen, mögliche CAPTCHA-Herausforderungen und die Nutzungsbedingungen von Amazon. Wenn Sie wiederholt viele Seiten durchsuchen, besteht die Gefahr, dass Sie blockiert werden oder gegen deren Nutzungsrichtlinien verstoßen.

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von Analytics Vidhya und werden nach Ermessen des Autors verwendet.

Hallo! Ich bin Adarsh, ein Enterprise Analytics-Absolvent der ISB, der sich derzeit intensiv mit der Forschung und der Erkundung neuer Grenzen beschäftigt. Ich habe eine große Leidenschaft für Datenwissenschaft, KI und all die innovativen Möglichkeiten, wie sie Branchen verändern können. Ob es darum geht, Modelle zu erstellen, an Datenpipelines zu arbeiten oder in maschinelles Lernen einzutauchen, ich liebe es, mit der neuesten Technologie zu experimentieren. KI ist nicht nur mein Interesse, sie ist auch die Richtung, in die ich die Zukunft sehe, und ich freue mich immer, Teil dieser Reise zu sein!