

Bild von Autor | Chatgpt
# Einführung
Es ist häufig am schwierigsten, reale Daten für Ihre Datenwissenschaftsprojekte zu erhalten. Spielzeugdatensätze sind leicht zu finden, aber für hochwertige oder Echtzeitdaten müssen Sie normalerweise APIs verwenden oder benutzerdefinierte Schablonen-Pipelines erstellen, um Informationen aus dem Net zu extrahieren.
In diesem Artikel teile ich meine 10 bevorzugten kostenlosen APIs – diejenigen, die ich täglich für die Datenerfassung, die Datenintegration und den Aufbau von KI -Agenten verwende. Diese APIs sind in fünf Kategorien organisiert, wobei vertrauenswürdige Datenrepositories, Net -Scraping und Websuche überschritten werden, sodass Sie schnell das richtige Device auswählen und schneller von Daten zu Erkenntnissen wechseln können.
# Grundlegende Datenrepositorys
Ein grundlegendes Datenrepository ist eine Neighborhood-basierte Plattform, auf der verschiedene Organisationen und Open-Supply-Mitwirkende ihre Datensätze mit der breiten Welt teilen. Mit einem einfachen Befehl können Sie auf diese Datensätze für Ihr Projekt zugreifen.
// 1. Kaggle API
Kaggle Datensätze sind bei der Arbeit an Datenwissenschaftsprojekten äußerst beliebt. Anstatt sie manuell herunterzuladen, können Sie eine Datenpipeline erstellen, die den Datensatz automatisch herunterlädt, sie entpackt und in Ihren Arbeitsbereich laden kann.
Diese Datensätze werden von der Open-Supply-Neighborhood für alle verwendet. Erstellen Sie, um zu beginnen, eine API -Schlüssel aus Ihrem Kaggle -Konto und setzen Sie es als Umgebungsvariable. Danach können Sie die folgenden Befehle in Ihrem Terminal ausführen. Kaggle bietet auch eine Python -SDK, die eine einfache Integration in Ihren Code ermöglicht.
kaggle datasets obtain -d kingabzpro/world-vaccine-progress -p knowledge --unzip
// 2. umarmen Gesicht cli
Ähnlich wie Kaggle, Umarmtes Gesicht ist auch eine Neighborhood für Datenwissenschaft und maschinelles Lernen, in der Menschen Datensätze, Modelle und Demos teilen. Sie können die Umarmungsgesichts -CLI problemlos installieren und sie mit CLI -Befehlen oder Python -Code in Ihre Workflows integrieren. Mit beiden Optionen können Sie Datensätze herunterladen, ohne einen API -Schlüssel zu benötigen.
Ein API -Schlüssel ist nur erforderlich, wenn der Datensatz geschaltet ist.
hf obtain kingabzpro/dermatology-qa-firecrawl-dataset
# Net- und Kriech -APIs
Das Net enthält eine Vielzahl von Daten. Wenn Sie die Informationen, die Sie auf den oben genannten Plattformen benötigen, nicht finden können, müssen Sie möglicherweise Ihre eigenen Daten durch Abkratzen des Webs oder die Verwendung einer Net -Search -API kuratieren.
// 3.. Feuerkrabel
Feuerkrabel Bietet eine API zum Extrahieren von Inhalten von Web sites und zum Konvertieren in ein Markdown -Format für einfachere KI -Integrationen. Es wird auch mit einer Scraping- und Extraktions -API geliefert, die in ein LLM (großes Sprachmodell) für erweiterte Net -Scraping -Optionen integriert ist.
Diese API ist ein Muss. Ich benutze es jeden Tag für die Datenerstellung und für die Integration in meine KI -Projekte.
curl -s -X POST "https://api.firecrawl.dev/v2/scrape"
-H "Authorization: Bearer $FIRECRAWL_API_KEY"
-H "Content material-Kind: software/json"
-d '{
"url": "https://abid.work",
"codecs": ("markdown", "html")
}'
// 4. Tavily
Tavy ist eine schnelle Net -Such -API, die kostenlos 1.000 Suchanforderungen professional Monat bietet. Es ist sowohl genau als auch schnell. Sie können es verwenden, um Datensätze zu erstellen, sie in Ihre KI -Projekte zu integrieren oder sie als einfache Such -API für Ihre Entwicklungsanforderungen zu verwenden.
curl --request POST
--url https://api.tavily.com/search
--header "Authorization: Bearer <token>"
--header "Content material-Kind: software/json"
--data '{
"question": "who's Leo Messi?",
"auto_parameters": false,
"subject": "normal",
"search_depth": "fundamental",
"chunks_per_source": 3,
"max_results": 1,
"days": 7,
"include_answer": true,
"include_raw_content": true,
"include_images": false,
"include_image_descriptions": false,
"include_favicon": false,
"include_domains": (),
"exclude_domains": (),
"nation": null
}'
# Geospatial- und Wetterapis
Wenn Sie nach Wetter- und Geospatial -Datensätzen suchen, werden Sie wissen, dass sich die Dinge weiter ändern. Aus diesem Grund benötigen Sie über API einen Echtzeitzugriff auf diese Datensätze.
// 5. OpenWeathermap
OpenWeathermap ist ein Dienst, der globale Wetterdaten über APIs bietet, einschließlich aktueller Bedingungen, Prognosen, Nowcasts, historischen Aufzeichnungen und sogar winzigen für Minute hyperlokalen Niederschlagsvorhersagen.
curl "https://api.openweathermap.org/knowledge/2.5/climate?q=London&appid=YOUR_API_KEY&items=metric"
// 6. OpenStreetmap
OpenStreetmap Bietet Weltkartendaten und die Überführung der API ist eine schreibgeschützte Webdatenbank, die benutzerdefinierte Teile von OSM bedient und mit Überführungs-QL abgefragt werden kann. Das folgende Beispiel holt Cafe -Knoten in einem kleinen Londoner Begrenzungsbox.
curl -G "https://overpass-api.de/api/interpreter"
--data-urlencode 'knowledge=(out:json);node("amenity"="cafe")(51.50,-0.15,51.52,-0.10);out;'
# Finanzmarktdaten -APIs
Finanzmarktdaten-APIs werden dringend empfohlen, wenn Sie an einem Finanzprojekt arbeiten und Echtzeitdaten zu Aktien, Krypto und anderen finanzbezogenen Informationen und Nachrichten benötigen.
// 7. Alpha Vantage
Alpha Vantage ist eine Finanzdatenplattform, die kostenlose APIs für Echtzeit- und historische Marktdaten für Aktien, Foreign exchange, Kryptowährungen, Rohstoffe und Optionen mit Ergebnissen in JSON oder CSV bietet. Es bietet auch Zeitreihen mit Diagramm-fertige Zeitreihen in Intraday-, Each day-, Weekly- und Month-to-month-Intervallen sowie über 50 technischen Indikatoren für die Analyse.
curl "https://www.alphavantage.co/question?perform=TIME_SERIES_DAILY&image=IBM&apikey=YOUR_API_KEY"
// 8. Yahoo Finance
Viele Anfänger und Praktiker verwenden die yfinance API zum Zugriff auf Aktienzitate, historische Zeitreihendaten, Dividenden und Splits sowie grundlegende Metadaten. Auf diese Weise können sie analyse-fähige Datenrahmen für schnelle Prototypen und Klassenzimmerprojekte erstellen.
Yahoo Finance Bietet kostenlose Aktienzitate, Nachrichten, Portfolio -Instruments und Berichterstattung über internationale Märkte und ermöglicht es den Benutzern, ein breites Spektrum an Marktdaten ohne direkte Kosten zu erkunden.
import yfinance as yf
print(yf.obtain("AAPL", interval="1y").head())
# Soziale und Neighborhood -Daten -APIs
Wenn Sie an einem Projekt arbeiten, um Textual content- und Neighborhood -Gespräche von High -Social -Media -Plattformen aus zu analysieren, bieten diese APIs einen einfachen Zugriff auf echte Social -Media -Daten.
// 9. Reddit
Reddit Bietet eine reichhaltige, gemeinschaftsgetriebene Datenquelle und die Python Reddit API Wrapper (Praw) macht es einfach, auf die offizielle Reddit -API zuzugreifen, um Aufgaben wie das Abholen von Posts, Kommentaren und Subreddit -Metadaten in Python abzurufen.
Praw arbeitet, indem er Anfragen an die API von Reddit unter der Haube sendet und häufig in der Lehre und Forschung verwendet wird, um Diskussionsthreads zur Analyse zu sammeln.
import praw
r = praw.Reddit(
client_id="ID",
client_secret="SECRET",
user_agent="myapp:ds-project:v1 (by u/yourname)"
)
print((s.title for s in r.subreddit("Python").scorching(restrict=5)))
// 10. x
X (zuvor als Twitter bekannt) bietet eine Entwicklerplattform mit REST-Endpunkten für Benutzer- und Inhaltsabruf sowie Streaming-Optionen für Echtzeitdaten. Der Zugriff erfordert im Allgemeinen eine Authentifizierung, die Einhaltung von Zinsgrenzen und -richtlinien sowie die Auswahl einer für Ihr Volumen- und Anwendungsfall geeigneten Zugriffsstufe.
curl -H "Authorization: Bearer YOUR_BEARER_TOKEN"
"https://api.x.com/2/customers/by/username/jack"
# Letzte Gedanken
Diese APIs bieten freien Zugriff auf Daten, die häufig schwer zu erhalten sind. Sie verbessern Ihre Fähigkeit, Webdaten zu sammeln oder Ihre Net -Scraping -Bemühungen zu verbessern, und ermöglichen es Ihnen, angepasste Datensätze zu erstellen.
Ich empfehle dringend, diesen Artikel zu markieren, um sie erneut zu besuchen, wenn Sie qualitativ hochwertige Echtzeitdaten aus dem Net benötigen. Durch die Nutzung dieser APIs können Sie wertvolle Erkenntnisse freischalten, die Ihre Forschung und Analyse unterstützen.
Abid Ali Awan (@1abidaliawan) ist ein zertifizierter Datenwissenschaftler, der es liebt, maschinelles Lernenmodelle zu bauen. Derzeit konzentriert er sich auf die Erstellung von Inhalten und das Schreiben von technischen Blogs über maschinelles Lernen und Datenwissenschaftstechnologien. Abid hat einen Grasp -Abschluss in Technologiemanagement und einen Bachelor -Abschluss in Telekommunikationstechnik. Seine Imaginative and prescient ist es, ein KI -Produkt zu bauen, das ein Diagramm neuronales Netzwerk für Schüler mit psychische Erkrankungen mit kämpfender Krankheiten unterhält.
