Data: 2025.02.2 | Kategoria: Blog | Tagi: deep learning , transformacji danych , sztuczna inteligencja , AI , chatGPT ,
Deep learning (uczenie głębokie) to jedna z dziedzin sztucznej inteligencji (AI), a dokładniej uczenia maszynowego (machine learning). Polega na tworzeniu i trenowaniu sztucznych sieci neuronowych, które są inspirowane strukturą i działaniem ludzkiego mózgu.
Transformacja to proces przygotowania surowych danych do użycia w modelach AI/ML. Jest kluczowa, ponieważ jakość danych bezpośrednio wpływa na skuteczność modelu.
Normalizacja: Skalowanie wartości do zakresu [0, 1] np. dla pikseli obrazów (0–255 → 0–1).
X_normalized = (X - X.min()) / (X.max() - X.min())
Standaryzacja: Przekształcenie danych do rozkładu o średniej 0 i odchyleniu standardowym 1.
X_standardized = (X - X.mean()) / X.std()
Po co? Zapobiega dominacji cech o dużych wartościach (np. dochód w USD vs. wiek).
One-Hot Encoding: Zamiana kategorii (np. "kot", "pies") na wektory binarne.
"kot" → [1, 0], "pies" → [0, 1]
Embedding: Zaawansowane kodowanie (używane w NLP), gdzie słowa mapowane są na wektory liczbowe o znaczeniu (np. word2vec).
PCA (Principal Component Analysis): Wyodrębnienie najważniejszych cech, usuwając redundancję.
t-SNE: Wizualizacja danych wielowymiarowych w 2D/3D.
Dla obrazów: Wykrywanie krawędzi, kolorów, tekstur.
Dla tekstu: Tworzenie bag-of-words, TF-IDF.
Deep learning to poddziedzina ML, która wykorzystuje wielowarstwowe sieci neuronowe do automatycznego uczenia się hierarchicznych reprezentacji danych.
Warstwy ukryte: Sieć składa się z wielu warstw (stąd "głębokie"), np.:
Warstwa wejściowa: Przyjmuje dane (np. piksele obrazu).
Warstwy ukryte: Wykonują nieliniowe transformacje (np. funkcje aktywacji ReLU, sigmoid).
Warstwa wyjściowa: Generuje wynik (np. klasę obrazu "kot").
Konwolucyjne Sieci Neuronowe (CNN):
Używane do analizy obrazów.
Filtry konwolucyjne wykrywają lokalne wzorce (np. krawędzie, kształty).
Przykład: Rozpoznawanie twarzy w zdjęciach.
Rekurencyjne Sieci Neuronowe (RNN) i Transformers:
RNN: Przetwarzają sekwencje (np. tekst, dane czasowe) dzięki pamięci wewnętrznej.
Transformers (np. GPT, BERT): Używają mechanizmu uwagi (attention) do analizy zależności długodystansowych. Są podstawą współczesnego NLP.
Autoenkodery: Kompresują dane do niższego wymiaru i odtwarzają je (użyteczne w detekcji anomalii).
Forward propagation: Dane przechodzą przez sieć, generując predykcję.
Funkcja straty: Oblicza błąd (np. MSE dla regresji, cross-entropy dla klasyfikacji).
Backpropagation: Propagacja wsteczna błędów – gradienty są obliczane i wykorzystywane do aktualizacji wag sieci.
Optymalizatory: Algorytmy jak Adam lub SGD minimalizują funkcję straty.
Wykorzystanie wstępnie wytrenowanych modeli (np. ResNet, BERT) i dostosowanie ich do nowych zadań z mniejszą ilością danych.
Przykład: Fine-tuning modelu BERT do analizy sentimentu w języku polskim.
Komputerowe widzenie (CV): Autonomiczne samochody, rozpoznawanie obiektów.
Przetwarzanie języka naturalnego (NLP): Tłumaczenie maszynowe, generowanie tekstu (np. ChatGPT).
Generatywne AI: Tworzenie obrazów (np. DALL-E), muzyki, głosu.
Dane surowe → Transformacja (np. normalizacja obrazów, tokenizacja tekstu).
Przygotowane dane → Podawane do sieci neuronowej.
Sieć automatycznie uczy się cech wyższego poziomu (np. w CNN: od krawędzi → kształty → obiekty).
Duże zapotrzebowanie na dane: Głębokie modele wymagają milionów przykładów.
Moc obliczeniowa: Trening wymaga GPU/TPU.
Overfitting: Sieć "zapamiętuje" dane zamiast się uogólniać (zapobiega się np. dropoutem).
Interpretowalność: Trudność w zrozumieniu, jak sieć podejmuje decyzje (np. czarne skrzynki).
Transformacja danych to "przygotowanie składników" przed gotowaniem – bez niej modele nie działają poprawnie.
Deep learning to "kuchnia molekularna" AI: wykorzystuje złożone, wielowarstwowe struktury do ekstrakcji zaawansowanych wzorców, których człowiek nie jest w stanie ręcznie opisać.
Razem tworzą fundament współczesnych systemów AI, od rozpoznawania twarzy po generowanie ludzkiego języka.