
Bild vom Autor
# So funktioniert Colab
Google Colab ist ein unglaublich leistungsstarkes Software für Datenwissenschaft, maschinelles Lernen und Python-Entwicklung. Dies liegt daran, dass die Probleme bei der lokalen Einrichtung entfallen. Ein Bereich, der Anfänger und manchmal sogar fortgeschrittene Benutzer oft verwirrt, ist jedoch die Dateiverwaltung.
Wo befinden sich Dateien? Warum verschwinden sie? Wie können Daten hochgeladen, heruntergeladen oder dauerhaft gespeichert werden? Dieser Artikel beantwortet all das Schritt für Schritt.
Lassen Sie uns gleich das größte Missverständnis klären. Google Colab funktioniert nicht wie Ihr Laptop computer. Jedes Mal, wenn Sie ein Pocket book öffnen, stellt Ihnen Colab eine temporäre virtuelle Maschine (VM) zur Verfügung. Sobald Sie gehen, ist alles im Inneren geräumt. Das heisst:
- Lokal gespeicherte Dateien sind temporär
- Wenn die Laufzeit zurückgesetzt wird, sind die Dateien verschwunden
Ihr Standardarbeitsverzeichnis ist:
Alles, was Sie darin speichern /content material verschwindet, sobald die Laufzeit zurückgesetzt wird.
# Anzeigen von Dateien in Colab
Sie haben zwei einfache Möglichkeiten, Ihre Dateien anzuzeigen.
// Methode 1: Den visuellen Weg nutzen
Dies ist die empfohlene Vorgehensweise für Anfänger:
- Schauen Sie sich die linke Seitenleiste an
- Klicken Sie auf das Ordnersymbol
- Stöbern Sie hinein
/content material
Das ist großartig, wenn Sie einfach nur sehen möchten, was los ist.
// Methode 2: Verwendung der Python-Methode
Dies ist praktisch, wenn Sie Skripts erstellen oder Pfade debuggen.
import os
os.listdir('/content material')
# Hochladen und Herunterladen von Dateien
Angenommen, Sie haben einen Datensatz oder eine CSV-Datei (Comma-Separated Values) auf Ihrem Laptop computer. Die erste Methode ist das Hochladen mithilfe von Code.
from google.colab import information
information.add()
Eine Dateiauswahl wird geöffnet, Sie wählen Ihre Datei aus und sie wird angezeigt /content material. Diese Datei ist temporär, sofern sie nicht an einen anderen Ort verschoben wird.
Die zweite Methode ist Drag & Drop. Dieser Weg ist einfach, die Speicherung bleibt jedoch temporär.
- Öffnen Sie den Datei-Explorer (linker Bereich)
- Ziehen Sie Dateien direkt hinein
/content material
So laden Sie eine Datei von Colab auf Ihren lokalen Laptop herunter:
from google.colab import information
information.obtain('mannequin.pkl')
Ihr Browser lädt die Datei sofort herunter. Dies funktioniert für CSVs, Modelle, Protokolle und Bilder.
Wenn Sie möchten, dass Ihre Dateien das Zurücksetzen zur Laufzeit überstehen, müssen Sie Folgendes verwenden Google Drive. So mounten Sie Google Drive:
from google.colab import drive
drive.mount('/content material/drive')
Sobald Sie den Zugriff autorisiert haben, wird Ihr Laufwerk unter folgender Adresse angezeigt:
Alles, was hier gespeichert wird, ist dauerhaft.
# Empfohlene Projektordnerstruktur
Eine unordentliche Fahrt wird sehr schnell schmerzhaft. Eine saubere Struktur, die Sie wiederverwenden können, ist:
MyDrive/
└── ColabProjects/
└── My_Project/
├── knowledge/
├── notebooks/
├── fashions/
├── outputs/
└── README.md
Um Zeit zu sparen, können Sie Pfade wie die folgenden verwenden:
BASE_PATH = '/content material/drive/MyDrive/ColabProjects/My_Project'
DATA_PATH = f'{BASE_PATH}/knowledge/prepare.csv'
Um eine Datei dauerhaft zu speichern, verwenden Sie Pandas:
import pandas as pd
df.to_csv('/content material/drive/MyDrive/knowledge.csv', index=False)
Um eine Datei später zu laden:
df = pd.read_csv('/content material/drive/MyDrive/knowledge.csv')
# Dateiverwaltung in Colab
// Arbeiten mit ZIP-Dateien
So extrahieren Sie eine ZIP-Datei:
import zipfile
with zipfile.ZipFile('dataset.zip', 'r') as zip_ref:
zip_ref.extractall('/content material/knowledge')
// Verwenden von Shell-Befehlen für die Dateiverwaltung
Colab unterstützt Linux-Shell-Befehle mit !.
!pwd
!ls
!mkdir knowledge
!rm file.txt
!cp supply.txt vacation spot.txt
Dies ist für die Automatisierung sehr nützlich. Sobald Sie sich daran gewöhnt haben, werden Sie es häufig verwenden.
// Dateien direkt aus dem Web herunterladen
Anstatt manuell hochzuladen, können Sie verwenden wget:
!wget https://instance.com/knowledge.csv
Oder mit dem Anfragen Bibliothek in Python:
import requests
r = requests.get(url)
open('knowledge.csv', 'wb').write(r.content material)
Dies ist äußerst effektiv für Datensätze und vorab trainierte Modelle.
# Zusätzliche Überlegungen
// Speicherbeschränkungen
Folgende Grenzwerte sollten Sie beachten:
- Der Speicherplatz der Colab VM beträgt ca. 100 GB (temporär).
- Der Google Drive-Speicherplatz ist durch Ihr persönliches Kontingent begrenzt
- Browserbasierte Uploads sind auf etwa 5 GB begrenzt
Planen Sie bei großen Datensätzen immer im Voraus.
// Greatest Practices
- Mounten Sie das Laufwerk am Anfang des Notebooks
- Verwenden Sie Variablen für Pfade
- Behalten Sie die Rohdaten als schreibgeschützt bei
- Trennen Sie Daten, Modelle und Ausgaben in verschiedene Ordner
- Fügen Sie eine README-Datei für Ihr zukünftiges Ich hinzu
// Wann Sie Google Drive nicht verwenden sollten
Vermeiden Sie die Verwendung von Google Drive, wenn:
- Coaching an extrem großen Datensätzen
- Hochgeschwindigkeits-I/O ist entscheidend für die Leistung
- Sie benötigen verteilten Speicher
Zu den Alternativen, die Sie in diesen Fällen verwenden können, gehören:
# Letzte Gedanken
Sobald Sie verstehen, wie die Colab-Dateiverwaltung funktioniert, wird Ihr Arbeitsablauf wesentlich effizienter. Es besteht kein Grund zur Panik über verlorene Dateien oder das Umschreiben von Code. Mit diesen Instruments können Sie saubere Experimente und reibungslose Datenübergänge gewährleisten.
Kanwal Mehreen ist ein Ingenieur für maschinelles Lernen und ein technischer Redakteur mit einer großen Leidenschaft für Datenwissenschaft und die Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Maximizing Productiveness with ChatGPT“. Als Google Era Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie ist außerdem als Teradata Variety in Tech Scholar, Mitacs Globalink Analysis Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter von Veränderungen und hat FEMCodes gegründet, um Frauen in MINT-Bereichen zu stärken.
