Alles über die Google Colab-Dateiverwaltung
Bild vom Autor

# So funktioniert Colab

Google Colab ist ein unglaublich leistungsstarkes Software für Datenwissenschaft, maschinelles Lernen und Python-Entwicklung. Dies liegt daran, dass die Probleme bei der lokalen Einrichtung entfallen. Ein Bereich, der Anfänger und manchmal sogar fortgeschrittene Benutzer oft verwirrt, ist jedoch die Dateiverwaltung.

Wo befinden sich Dateien? Warum verschwinden sie? Wie können Daten hochgeladen, heruntergeladen oder dauerhaft gespeichert werden? Dieser Artikel beantwortet all das Schritt für Schritt.

Lassen Sie uns gleich das größte Missverständnis klären. Google Colab funktioniert nicht wie Ihr Laptop computer. Jedes Mal, wenn Sie ein Pocket book öffnen, stellt Ihnen Colab eine temporäre virtuelle Maschine (VM) zur Verfügung. Sobald Sie gehen, ist alles im Inneren geräumt. Das heisst:

  • Lokal gespeicherte Dateien sind temporär
  • Wenn die Laufzeit zurückgesetzt wird, sind die Dateien verschwunden

Ihr Standardarbeitsverzeichnis ist:

Alles, was Sie darin speichern /content material verschwindet, sobald die Laufzeit zurückgesetzt wird.

# Anzeigen von Dateien in Colab

Sie haben zwei einfache Möglichkeiten, Ihre Dateien anzuzeigen.

// Methode 1: Den visuellen Weg nutzen

Dies ist die empfohlene Vorgehensweise für Anfänger:

  • Schauen Sie sich die linke Seitenleiste an
  • Klicken Sie auf das Ordnersymbol
  • Stöbern Sie hinein /content material

Das ist großartig, wenn Sie einfach nur sehen möchten, was los ist.

// Methode 2: Verwendung der Python-Methode

Dies ist praktisch, wenn Sie Skripts erstellen oder Pfade debuggen.

import os
os.listdir('/content material')

# Hochladen und Herunterladen von Dateien

Angenommen, Sie haben einen Datensatz oder eine CSV-Datei (Comma-Separated Values) auf Ihrem Laptop computer. Die erste Methode ist das Hochladen mithilfe von Code.

from google.colab import information
information.add()

Eine Dateiauswahl wird geöffnet, Sie wählen Ihre Datei aus und sie wird angezeigt /content material. Diese Datei ist temporär, sofern sie nicht an einen anderen Ort verschoben wird.

Die zweite Methode ist Drag & Drop. Dieser Weg ist einfach, die Speicherung bleibt jedoch temporär.

  • Öffnen Sie den Datei-Explorer (linker Bereich)
  • Ziehen Sie Dateien direkt hinein /content material

So laden Sie eine Datei von Colab auf Ihren lokalen Laptop herunter:

from google.colab import information
information.obtain('mannequin.pkl')

Ihr Browser lädt die Datei sofort herunter. Dies funktioniert für CSVs, Modelle, Protokolle und Bilder.

Wenn Sie möchten, dass Ihre Dateien das Zurücksetzen zur Laufzeit überstehen, müssen Sie Folgendes verwenden Google Drive. So mounten Sie Google Drive:

from google.colab import drive
drive.mount('/content material/drive')

Sobald Sie den Zugriff autorisiert haben, wird Ihr Laufwerk unter folgender Adresse angezeigt:

Alles, was hier gespeichert wird, ist dauerhaft.

# Empfohlene Projektordnerstruktur

Eine unordentliche Fahrt wird sehr schnell schmerzhaft. Eine saubere Struktur, die Sie wiederverwenden können, ist:

MyDrive/
└── ColabProjects/
    └── My_Project/
        ├── knowledge/
        ├── notebooks/
        ├── fashions/
        ├── outputs/
        └── README.md

Um Zeit zu sparen, können Sie Pfade wie die folgenden verwenden:

BASE_PATH = '/content material/drive/MyDrive/ColabProjects/My_Project'
DATA_PATH = f'{BASE_PATH}/knowledge/prepare.csv'

Um eine Datei dauerhaft zu speichern, verwenden Sie Pandas:

import pandas as pd
df.to_csv('/content material/drive/MyDrive/knowledge.csv', index=False)

Um eine Datei später zu laden:

df = pd.read_csv('/content material/drive/MyDrive/knowledge.csv')

# Dateiverwaltung in Colab

// Arbeiten mit ZIP-Dateien

So extrahieren Sie eine ZIP-Datei:

import zipfile
with zipfile.ZipFile('dataset.zip', 'r') as zip_ref:
    zip_ref.extractall('/content material/knowledge')

// Verwenden von Shell-Befehlen für die Dateiverwaltung

Colab unterstützt Linux-Shell-Befehle mit !.

!pwd
!ls
!mkdir knowledge
!rm file.txt
!cp supply.txt vacation spot.txt

Dies ist für die Automatisierung sehr nützlich. Sobald Sie sich daran gewöhnt haben, werden Sie es häufig verwenden.

// Dateien direkt aus dem Web herunterladen

Anstatt manuell hochzuladen, können Sie verwenden wget:

!wget https://instance.com/knowledge.csv

Oder mit dem Anfragen Bibliothek in Python:

import requests
r = requests.get(url)
open('knowledge.csv', 'wb').write(r.content material)

Dies ist äußerst effektiv für Datensätze und vorab trainierte Modelle.

# Zusätzliche Überlegungen

// Speicherbeschränkungen

Folgende Grenzwerte sollten Sie beachten:

  • Der Speicherplatz der Colab VM beträgt ca. 100 GB (temporär).
  • Der Google Drive-Speicherplatz ist durch Ihr persönliches Kontingent begrenzt
  • Browserbasierte Uploads sind auf etwa 5 GB begrenzt

Planen Sie bei großen Datensätzen immer im Voraus.

// Greatest Practices

  • Mounten Sie das Laufwerk am Anfang des Notebooks
  • Verwenden Sie Variablen für Pfade
  • Behalten Sie die Rohdaten als schreibgeschützt bei
  • Trennen Sie Daten, Modelle und Ausgaben in verschiedene Ordner
  • Fügen Sie eine README-Datei für Ihr zukünftiges Ich hinzu

// Wann Sie Google Drive nicht verwenden sollten

Vermeiden Sie die Verwendung von Google Drive, wenn:

  • Coaching an extrem großen Datensätzen
  • Hochgeschwindigkeits-I/O ist entscheidend für die Leistung
  • Sie benötigen verteilten Speicher

Zu den Alternativen, die Sie in diesen Fällen verwenden können, gehören:

# Letzte Gedanken

Sobald Sie verstehen, wie die Colab-Dateiverwaltung funktioniert, wird Ihr Arbeitsablauf wesentlich effizienter. Es besteht kein Grund zur Panik über verlorene Dateien oder das Umschreiben von Code. Mit diesen Instruments können Sie saubere Experimente und reibungslose Datenübergänge gewährleisten.

Kanwal Mehreen ist ein Ingenieur für maschinelles Lernen und ein technischer Redakteur mit einer großen Leidenschaft für Datenwissenschaft und die Schnittstelle zwischen KI und Medizin. Sie ist Mitautorin des E-Books „Maximizing Productiveness with ChatGPT“. Als Google Era Scholar 2022 für APAC setzt sie sich für Vielfalt und akademische Exzellenz ein. Sie ist außerdem als Teradata Variety in Tech Scholar, Mitacs Globalink Analysis Scholar und Harvard WeCode Scholar anerkannt. Kanwal ist ein leidenschaftlicher Verfechter von Veränderungen und hat FEMCodes gegründet, um Frauen in MINT-Bereichen zu stärken.

Von admin

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert