O'Reilly logo

Stay ahead with the world's most comprehensive technology and business learning platform.

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, tutorials, and more.

Start Free Trial

No credit card required

Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji

Book Description

To unikalny podręcznik, który pomoże Ci sprawnie opanować nawet najtrudniejsze zagadnienia związane z analizą danych. Dowiedz się, jak zbudowany jest proces eksploracji danych, z jakich narzędzi możesz skorzystać oraz jak stworzyć model predykcyjny i dopasować go do danych. W kolejnych rozdziałach przeczytasz o tym, czym grozi nadmierne dopasowanie modelu i jak go unikać oraz jak wyciągać wnioski metodą najbliższych sąsiadów. Na koniec zaznajomisz się z możliwościami wizualizacji skuteczności modelu oraz odkryjesz związek pomiędzy nauką o danych a strategią biznesową. To obowiązkowa lektura dla wszystkich osób chcących podejmować świadome decyzje na podstawie posiadanych danych!

Table of Contents

  1. Analiza danych w biznesie. Sztuka podejmowania skutecznych decyzji
  2. Dedykacja
  3. Opinie o książce
  4. Przedmowa
    1. Nasze koncepcyjne podejście do nauki o danych
    2. Dla nauczycieli
    3. Inne umiejętności i pojęcia
    4. Podział książki i notacja
    5. Wykorzystywanie przykładów
    6. Podziękowania
  5. 1. Wstęp: myślenie w kategoriach analityki danych
    1. Wszechobecność możliwości pozyskiwania danych
    2. Przykład: huragan Frances
    3. Przykład: prognozowanie odpływu klientów
    4. Nauka o danych, inżynieria i podejmowanie decyzji na podstawie danych
    5. Przetwarzanie danych i Big Data
    6. Od Big Data 1.0 do Big Data 2.0
    7. Dane i potencjał nauki o danych jako aktywa strategiczne
    8. Myślenie w kategoriach analityki danych
    9. Nasza książka
    10. Eksploracja danych i nauka o danych, nowe spojrzenie
    11. Chemia to nie probówki: nauka o danych kontra praca badacza danych
    12. Podsumowanie
  6. 2. Problemy biznesowe a rozwiązania z zakresu nauki o danych
    1. Od problemów biznesowych do zadań eksploracji danych
    2. Metody nadzorowane i nienadzorowane
    3. Eksploracja danych i jej wyniki
    4. Proces eksploracji danych
      1. Zrozumienie uwarunkowań biznesowych
      2. Zrozumienie danych
      3. Przygotowanie danych
      4. Modelowanie
      5. Ewaluacja
      6. Wdrożenie
    5. Implikacje w sferze zarządzania zespołem nauki o danych
    6. Inne techniki i technologie analityczne
      1. Statystyka
      2. Zapytania do baz danych
      3. Magazynowanie danych
      4. Analiza regresji
      5. Uczenie maszynowe i eksploracja danych
      6. Odpowiadanie na pytania biznesowe z wykorzystaniem tych technik
    7. Podsumowanie
  7. 3. Wprowadzenie do modelowania predykcyjnego: od korelacji do nadzorowanej segmentacji
    1. Modele, indukcja i predykcja
    2. Nadzorowana segmentacja
      1. Wybór atrybutów informatywnych
      2. Przykład: wybór atrybutu z wykorzystaniem przyrostu informacji
      3. Nadzorowana segmentacja z użyciem modeli o strukturze drzewa
    3. Wizualizacja segmentacji
    4. Drzewa jako zbiory reguł
    5. Szacowanie prawdopodobieństwa
    6. Przykład: rozwiązywanie problemu odpływu abonentów z wykorzystaniem indukcji drzewa
    7. Podsumowanie
  8. 4. Dopasowywanie modelu do danych
    1. Klasyfikacja za pomocą funkcji matematycznych
      1. Liniowe funkcje dyskryminacyjne
      2. Optymalizacja funkcji celu
      3. Przykład wydobywania dyskryminatora liniowego z danych
      4. Liniowe funkcje dyskryminacyjne do celów scoringu i szeregowania wystąpień
      5. Maszyny wektorów wspierających w skrócie
    2. Regresja za pomocą funkcji matematycznych
    3. Szacowanie prawdopodobieństwa klas i „Regresja” logistyczna
      1. * Regresja logistyczna: kilka szczegółów technicznych
    4. Przykład: indukcja drzew decyzyjnych a regresja logistyczna
    5. Funkcje nieliniowe, maszyny wektorów wspierających i sieci neuronowe
    6. Podsumowanie
  9. 5. Nadmierne dopasowanie i jego unikanie
    1. Generalizacja
    2. Nadmierne dopasowanie („przeuczenie”)
    3. Badanie nadmiernego dopasowania
      1. Dane wydzielone i wykresy dopasowania
      2. Nadmierne dopasowanie w indukcji drzew decyzyjnych
      3. Nadmierne dopasowanie w funkcjach matematycznych
    4. Przykład: nadmierne dopasowanie funkcji liniowych
    5. * Przykład: dlaczego nadmierne dopasowanie jest niekorzystne?
    6. Od ewaluacji danych wydzielonych do sprawdzianu krzyżowego
    7. Zbiór danych dotyczących odpływu abonentów — nowe spojrzenie
    8. Krzywe uczenia się
    9. Unikanie nadmiernego dopasowania i kontrola złożoności
      1. Unikanie nadmiernego dopasowania w indukcji drzew decyzyjnych
      2. Ogólna metoda unikania nadmiernego dopasowania
      3. * Unikanie nadmiernego dopasowania w celu optymalizacji parametrów
    10. Podsumowanie
  10. 6. Podobieństwo, sąsiedzi i klastry
    1. Podobieństwo i odległość
    2. Wnioskowanie metodą najbliższych sąsiadów
      1. Przykład: analityka whisky
      2. Najbliżsi sąsiedzi w modelowaniu predykcyjnym
        1. Klasyfikacja
        2. Szacowanie prawdopodobieństwa
        3. Regresja
      3. Ilu sąsiadów i jak duży wpływ?
      4. Interpretacja geometryczna, nadmierne dopasowanie i kontrola złożoności
      5. Problemy z metodami najbliższych sąsiadów
        1. Zrozumiałość
        2. Wymiarowość i wiedza fachowa
        3. Wydajność obliczeniowa
    3. Kilka istotnych szczegółów technicznych dotyczących podobieństw i sąsiadów
      1. Atrybuty heterogeniczne
      2. * Inne funkcje odległości
      3. * Funkcje łączące: obliczanie wskaźników na podstawie sąsiadów
    4. Klastrowanie
      1. Przykład: analityka whisky — nowe spojrzenie
      2. Klastrowanie hierarchiczne
      3. Najbliżsi sąsiedzi na nowo: klastrowanie wokół centroidów
      4. Przykład: klastrowanie wiadomości biznesowych
        1. Przygotowanie danych
          1. Klastry wiadomości
      5. Zrozumienie wyników klastrowania
      6. * Wykorzystywanie uczenia nadzorowanego do generowania opisów klastrów
    5. Krok wstecz: rozwiązywanie problemu biznesowego kontra eksploracja danych
    6. Podsumowanie
  11. 7. Myślenie w kategoriach analityki decyzji I: co to jest dobry model?
    1. Ewaluacja klasyfikatorów
      1. Zwykła dokładność i jej problemy
      2. Macierz pomyłek
      3. Problemy z niezrównoważonymi klasami
      4. Problemy nierównych kosztów i korzyści
    2. Generalizowanie poza klasyfikacją
    3. Kluczowa platforma analityczna: wartość oczekiwana
      1. Wykorzystywanie wartości oczekiwanej do systematyzowania zastosowania klasyfikatora
      2. Wykorzystywanie wartości oczekiwanej do systematyzowania ewaluacji klasyfikatora
        1. Stopy błędów
        2. Koszty i korzyści
    4. Ewaluacja, skuteczność bazowa oraz implikacje dla inwestowania w dane
    5. Podsumowanie
  12. 8. Wizualizacja skuteczności modelu
    1. Ranking zamiast klasyfikowania
    2. Krzywe zysku
    3. Wykresy i krzywe ROC
    4. Pole pod krzywą ROC (AUC)
    5. Krzywe łącznej reakcji i krzywe przyrostu
    6. Przykład: analityka skuteczności w modelowaniu odpływu abonentów
    7. Podsumowanie
  13. 9. Dowody i prawdopodobieństwa
    1. Przykład: targetowanie klientów reklam internetowych
    2. Probabilistyczne łączenie dowodów
      1. Prawdopodobieństwo łączne i niezależność
      2. Twierdzenie Bayesa
    3. Zastosowanie twierdzenia Bayesa w nauce o danych
      1. Niezależność warunkowa i naiwny klasyfikator bayesowski
      2. Zalety i wady naiwnego klasyfikatora bayesowskiego
    4. Model „przyrostu” wartości dowodu
    5. Przykład: przyrosty wartości dowodów z „polubień” na Facebooku
      1. Dowody w akcji: targetowanie klientów reklamami
    6. Podsumowanie
  14. 10. Reprezentacja i eksploracja tekstu
    1. Dlaczego tekst jest istotny
    2. Dlaczego tekst jest trudny
    3. Reprezentacja
      1. Worek słów (bag of words)
      2. Częstość termów
      3. Mierzenie rzadkości (sparseness): odwrotna częstość w dokumentach
      4. Łączenie reprezentacji: TFIDF
    4. Przykład: muzycy jazzowi
    5. * Związek IDF z entropią
    6. Oprócz worka słów
      1. N-gramy
      2. Ekstrakcja wyrażeń nazwowych
      3. Modele tematyczne
    7. Przykład: eksploracja wiadomości w celu prognozowania zmian cen akcji
      1. Zadanie
      2. Dane
      3. Wstępne przetwarzanie danych
      4. Wyniki
    8. Podsumowanie
  15. 11. Myślenie w kategoriach analityki decyzji II: w kierunku inżynierii analitycznej
    1. Targetowanie najlepszych potencjalnych klientów przesyłek organizacji pozyskujących fundusze
      1. Platforma wartości oczekiwanej: rozkład problemu biznesowego i ponowne zestawienie elementów rozwiązania
      2. Krótka dygresja na temat stronniczości selekcji
    2. Nowe, jeszcze bardziej zaawansowane spojrzenie na nasz przykład odpływu abonentów
      1. Platforma wartości oczekiwanej: strukturyzacja bardziej skomplikowanego problemu biznesowego
      2. Ocena wpływu zachęty
      3. Od rozkładu wartości oczekiwanej do rozwiązania z obszaru nauki o danych
    3. Podsumowanie
  16. 12. Inne zadania i techniki nauki o danych
    1. Współwystąpienia i zależności: znajdowanie elementów, które idą w parze
      1. Pomiar zaskoczenia: przyrost i dźwignia
      2. Przykład: piwo i kupony loteryjne
      3. Zależności pomiędzy polubieniami na Facebooku
    2. Profilowanie: znajdowanie typowego zachowania
    3. Predykcja połączeń i rekomendacje społecznościowe
    4. Redukcja danych, informacje ukryte i rekomendacje filmów
    5. Stronniczość, wariancja i metody zespalania
    6. Oparte na danych wyjaśnianie przyczynowe i przykład marketingu wirusowego
    7. Podsumowanie
  17. 13. Nauka o danych i strategia biznesowa
    1. Myślenie w kategoriach analityki danych, raz jeszcze
    2. Osiąganie przewagi konkurencyjnej przy pomocy nauki o danych
    3. Utrzymywanie przewagi konkurencyjnej przy pomocy nauki o danych
      1. Nadzwyczajna przewaga historyczna
      2. Wyjątkowa własność intelektualna
      3. Wyjątkowe niematerialne aktywa zabezpieczające
      4. Lepsi badacze danych
      5. Lepsze zarządzanie zespołem nauki o danych
    4. Pozyskiwanie badaczy danych i ich zespołów oraz opieka nad nimi
    5. Badanie studiów przypadku z zakresu nauki o danych
    6. Gotowość do przyjmowania kreatywnych pomysłów z każdego źródła
    7. Gotowość do oceny propozycji projektów z zakresu nauki o danych
      1. Przykładowa propozycja eksploracji danych
      2. Błędy w propozycji Big Red
    8. Dojrzałość firmy w sferze nauki o danych
  18. 14. Zakończenie
    1. Podstawowe pojęcia nauki o danych
      1. Zastosowanie naszych podstawowych pojęć do nowego problemu: eksploracji danych urządzeń przenośnych
      2. Zmiana sposobu myślenia o rozwiązaniach problemów biznesowych
    2. Czego dane nie mogą dokonać: nowe spojrzenie na decydentów
    3. Prywatność, etyka i eksploracja danych dotyczących konkretnych osób
    4. Czy jest coś jeszcze w nauce o danych?
    5. Ostatni przykład: od crowdsourcingu do cloudsourcingu
    6. Kilka słów na zakończenie
  19. A. Przewodnik dotyczący oceny propozycji
    1. Zrozumienie uwarunkowań biznesowych i zrozumienie danych
    2. Przygotowanie danych
    3. Modelowanie
    4. Ewaluacja i wdrożenie
  20. B. Jeszcze jedna przykładowa propozycja
    1. Scenariusz i propozycja
    2. Wady propozycji GGC
  21. C. Słowniczek
    1. A priori
    2. Atrybut (pole, zmienna, funkcja)
    3. Brak wartości
    4. Cecha
    5. Czułość
    6. Czyszczenie/oczyszczanie danych
    7. Dokładność (stopa błędu)
    8. Eksploracja danych (data mining)
    9. Indukcja
    10. KDD
    11. Klasa (etykieta)
    12. Klasyfikator
    13. Koszt (użyteczność/strata/opłacalność)
    14. Krotka
    15. Macierz pomyłek
    16. Model
    17. Odkrywanie wiedzy
    18. Odkrywanie zależności
    19. OLAP (MOLAP, ROLAP)
    20. Pokrycie (coverage)
    21. Pole
    22. Próbka i.i.d.
    23. Przykład
    24. Rekord
    25. Schemat
    26. Specyficzność
    27. Sprawdzian krzyżowy
    28. Stopa błędu
    29. Strata
    30. Uczenie maszynowe
    31. Uczenie nadzorowane
    32. Uczenie nienadzorowane
    33. Użyteczność
    34. Wdrożenie modelu
    35. Wektor cech (rekord, krotka)
    36. Wymiar
    37. Wystąpienie (przykład, przypadek, rekord)
    38. Zbiór danych
  22. Bibliografia
  23. D. O autorach
  24. Indeks
  25. Copyright