stackit.guru
DE

STACKIT Notebooks – Interaktive Datenexploration

#data
data jupyter data-science

STACKIT Notebooks – Interaktive Datenexploration

Bevor du eine Datenpipeline baust, willst du die Daten erst verstehen: Strukturen erkunden, Qualität prüfen, erste Visualisierungen erstellen. Lokal installierte Jupyter-Notebooks stoßen dabei schnell an Grenzen – fehlende GPU-Power, kein Zugriff auf Cloud-Datenquellen, Dependency-Chaos. STACKIT Notebooks gibt dir eine fertig konfigurierte Jupyter-Umgebung direkt in der Cloud.

Was ist STACKIT Notebooks?

STACKIT Notebooks ist ein Managed Jupyter-Service, der dir eine browserbasierte Entwicklungsumgebung für Data Science und Machine Learning bereitstellt.

  • Jupyter Lab: Vollständige JupyterLab-Oberfläche mit Terminal, File-Browser und Extensions.
  • Vorkonfigurierte Umgebungen: Python, R und Julia mit vorinstallierten Data-Science-Bibliotheken (pandas, scikit-learn, PyTorch).
  • GPU-Zugriff: Optional GPU-beschleunigte Instanzen für ML-Training.
  • Direkte Datenanbindung: Zugriff auf STACKIT Object Storage, Dremio und Datenbanken ohne VPN.
  • Persistenter Speicher: Deine Notebooks und Daten bleiben zwischen Sessions erhalten.

Tutorial: Notebook-Umgebung einrichten und Daten analysieren

1. Notebook-Instanz erstellen

stackit notebooks create \
  --name mein-notebook \
  --project-id your-project-id \
  --flavor gpu-small \
  --image data-science-py3.11

2. Notebook im Browser öffnen

stackit notebooks open --name mein-notebook

# Öffnet: https://mein-notebook.notebooks.stackit.cloud

3. Daten aus STACKIT Object Storage laden

In einer neuen Notebook-Zelle:

import boto3
import pandas as pd

s3 = boto3.client(
    "s3",
    endpoint_url="https://s3.eu01.stackit.cloud",
    aws_access_key_id="your-access-key",
    aws_secret_access_key="your-secret-key"
)

s3.download_file("mein-bucket", "daten/verkauf_2026.csv", "/tmp/verkauf.csv")
df = pd.read_csv("/tmp/verkauf.csv")
df.describe()

4. Daten direkt aus Dremio abfragen

from sqlalchemy import create_engine

engine = create_engine(
    "dremio+flight://user:your-password@dremio.stackit.cloud:32010/dremio"
)

df = pd.read_sql("SELECT * FROM intake.sensor_events LIMIT 1000", engine)
df.head()

5. Ergebnisse visualisieren

import matplotlib.pyplot as plt

df.groupby("region")["revenue"].sum().plot(kind="bar")
plt.title("Umsatz nach Region")
plt.ylabel("Umsatz (€)")
plt.tight_layout()
plt.show()

Nächste Schritte

  • Exportiere fertige Notebooks als STACKIT Workflows-Jobs für die automatisierte Ausführung.
  • Nutze GPU-Instanzen, um Modelle zu trainieren und über AI Model Serving bereitzustellen.
  • Teile Notebooks mit deinem Team über die integrierte Git-Anbindung.