Einführung
1 Begriffsdefinitionen
1.1 Data Science (Datenwissenschaft)
Data Science ist ein interdisziplinäres Feld, das sich mit dem Extrahieren von Wissen und Erkenntnissen aus Daten beschäftigt. Es kombiniert:
- Statistik
- Informatik
- Mathematik
- und oft auch Fachwissen aus einem bestimmten Bereich
Ziel ist es, aus großen Datenmengen Muster zu erkennen, Vorhersagen zu treffen oder Entscheidungen zu unterstützen.
Beispiele: Analyse von Kundenverhalten, Betrugserkennung, Optimierung von Geschäftsprozessen.
Alltagsbeispiel: Ein Online-Shop analysiert die Kaufhistorie seiner Kunden, um herauszufinden, welche Produkte oft zusammen gekauft werden. Daraus entstehen dann personalisierte Empfehlungen.
➡️ Amazon schlägt vor: “Kunden, die das gekauft haben, kauften auch…”
1.2 Machine Learning (Maschinelles Lernen)
Machine Learning ist ein Teilbereich der Künstlichen Intelligenz, bei dem Computer aus Daten lernen, ohne explizit programmiert zu werden. Es gibt dem Computer die Fähigkeit, aus Beispielen zu lernen und bei neuen Daten selbstständig Ergebnisse vorherzusagen.
Beispiel: Ein E-Mail-Dienst filtert deine Nachrichten automatisch in “Posteingang” oder “Spam”, basierend auf erkannten Mustern und Erfahrungen mit früheren E-Mails.
➡️ Gmail erkennt, dass „Gratis-Gewinn!“ meist Spam ist – auch wenn man das nie gesagt hat.
1.3 Deep Learning (Tiefes Lernen)
Deep Learning ist eine spezielle Methode im Machine Learning, die mit künstlichen neuronalen Netzwerken arbeitet, die aus vielen Schichten (“deep”) bestehen. Diese Methode ist besonders gut geeignet für:
- Bild- und Spracherkennung
- Übersetzungen
- autonomes Fahren
Beispiel: Das Smartphone kann Gesichter auf Fotos automatisch erkennen und sogar sortieren nach Personen.
➡️ Das iPhone gruppiert alle Bilder deiner Freunde – auch wenn sie unterschiedlich aussehen.
1.4 Generative Neuronal Networks (Generative Netzwerke / GANs)
Diese Netzwerke gehören zur Deep-Learning-Welt. Generative Adversarial Networks (GANs) bestehen aus zwei neuronalen Netzwerken, die gegeneinander arbeiten:
- Ein Generator erzeugt neue Daten (z. B. Bilder).
- Ein Diskriminator bewertet, ob die Daten echt oder künstlich sind.
Ziel: Der Generator lernt, so realistisch wie möglich neue Inhalte zu erzeugen – z. B. real aussehende Gesichter, die es aber gar nicht gibt.
Beispiel: Ein Tool wie DALL·E oder Midjourney kann auf Basis eines Textes realistische Bilder erzeugen, obwohl sie nie existiert haben.
➡️ Man gibt ein: „Ein Panda, der Gitarre spielt im Schnee“ – und bekommst ein Bild davon.
1.5 Artificial Intelligence (Künstliche Intelligenz / KI)
Künstliche Intelligenz ist ein Oberbegriff für alle Methoden, bei denen Maschinen so programmiert sind, dass sie intelligentes Verhalten zeigen – also Probleme lösen, Entscheidungen treffen, lernen oder Sprache verstehen, ähnlich wie Menschen.
Beispiel: Ein Sprachassistent versteht deine Sprache, beantwortet Fragen, spielt Musik oder steuert dein Smart Home – fast wie ein echter Gesprächspartner.
➡️ „Siri, wie wird das Wetter morgen?“ – und sie antwortet.
2 Häufig verwendete Bibliotheken
- Numpy: fundamentale mathematische Operationen auf Vektoren und Matrizen
- Pandas: Microsoft Excel auf Steroide
- Matplotlib: Erstellung von grafischen Darstellungen mit wenig Code
- Scipy: Implementiert alles, was Numpy nicht bietet