O'Reilly logo

Stay ahead with the world's most comprehensive technology and business learning platform.

With Safari, you learn the way you learn best. Get unlimited access to videos, live online training, learning paths, books, tutorials, and more.

Start Free Trial

No credit card required

Badanie danych. Raport z pierwszej linii działań

Book Description

W dzisiejszych czasach najcenniejszym dobrem jest informacja. Ogromne ilości danych są przechowywane w przepastnych bazach danych, a kluczem do sukcesu jest ich umiejętna analiza i wyciąganie wniosków. To dynamicznie rozwijająca się dziedzina wiedzy, w której do tej pory brakowało solidnych podręczników, pozwalających na dogłębne poznanie tego obszaru. Na szczęście to się zmieniło!

Table of Contents

  1. Badanie danych Raport z pierwszej linii działań
  2. Dedykacja
  3. Przedmowa
    1. Rachel Schutt
    2. Motywy
    3. Geneza zajęć
    4. Geneza książki
    5. Czego można się spodziewać po tej książce
    6. Układ książki
    7. Jak czytać tę książkę
    8. Czemu służy kod zamieszczony w książce
    9. Dla kogo jest ta książka
    10. Wymagania
    11. Lektury uzupełniające
    12. O tych, którzy przyczynili się do powstania książki
    13. Przyjęte zasady składu
    14. Wykorzystanie przykładów w kodzie
    15. Podziękowania
  4. 1. Wprowadzenie: czym jest nauka o danych?
    1. Wielkie dane i szum wokół badania danych
    2. Pokonywanie szumu
    3. Dlaczego teraz?
      1. Datafikacja
    4. Obecny horyzont (z domieszką historii)
      1. Praca dla badaczy danych
    5. Profil nauki o danych
    6. Eksperyment myślowy — metadefinicja
    7. Kim zatem jest badacz danych?
      1. Na uczelni
      2. W przemyśle
  5. 2. Wnioskowanie statystyczne, eksploracyjna analiza danych i proces badania danych
    1. Myślenie statystyczne w epoce wielkich danych
      1. Wnioskowanie statystyczne
      2. Populacje i próby
      3. Populacje i próby wielkich danych
      4. Wielkie dane mogą oznaczać poważne założenia
        1. Czy może być „N = WSZYSTKO”?
        2. Dane nie są obiektywne
      5. Modelowanie
        1. Co to jest model?
        2. Modelowanie statystyczne
        3. Jak zatem budujesz model?
        4. Rozkłady prawdopodobieństwa
        5. Dopasowanie modelu
        6. Nadmierne dopasowanie
    2. Eksploracyjna analiza danych
      1. Zasady eksploracyjnej analizy danych
      2. Zadanie: EDA
        1. Przykładowy kod
    3. Proces badania danych
      1. Rola badacza danych w tym procesie
    4. Eksperyment myślowy: jak zasymulować chaos?
    5. Studium przypadku: RealDirect
      1. W jaki sposób zarabia RealDirect?
      2. Zadanie: strategia danych w RealDirect
        1. Przykładowy kod w języku R
  6. 3. Algorytmy
    1. Algorytmy uczenia maszynowego
    2. Trzy algorytmy podstawowe
      1. Regresja liniowa
        1. Na początek coś zapisz
        2. Dopasowanie modelu
        3. Wychodzimy poza najmniejsze kwadraty
          1. Miary ewaluacji
          2. Inne modele składników błędu
          3. Przegląd
          4. Ćwiczenie
      2. K-najbliższych sąsiadów (k-NN)
        1. Przykład ze zdolnościami kredytowymi
        2. Miary podobieństwa, czyli odległości
        3. Zbiory ćwiczebne i testowe
        4. Wybierz miarę ewaluacji
        5. Zbierzmy to wszystko
        6. Dobór k
        7. Jakie są założenia modelowania
      3. K-średnie
        1. Wersja dwuwymiarowa
    3. Zadanie: podstawowe algorytmy uczenia maszynowego
      1. Rozwiązania
        1. Przykładowy kod w języku R: regresja liniowa na zbiorze danych opisujących nieruchomości
        2. Przykładowy kod w języku R: algorytm k-NN na zbiorze danych opisujących nieruchomości
    4. Podsumowując to wszystko
    5. Eksperyment myślowy — automatyczny statystyk
  7. 4. Filtry spamu, naiwny Bayes i obróbka danych
    1. Eksperyment myślowy — nauczanie przez przykład
      1. Dlaczego regresja liniowa nie zadziała przy filtrowaniu spamu
      2. A co z algorytmem k-najbliższych sąsiadów?
    2. Naiwna metoda Bayesa
      1. Wzór Bayesa
      2. Filtr spamu do poszczególnych słów
      3. Filtr spamu łączący słowa — naiwna metoda Bayesa
    3. Zróbmy to z polotem — wygładzanie metodą Laplace’a
    4. Porównanie naiwnej metody Bayesa z k-NN
    5. Przykładowy kod w bashu
    6. Skrobiąc po Sieci — interfejsy API i inne narzędzia
      1. Zadanie Jake’a: naiwna metoda Bayesa do klasyfikowania artykułów
      2. Przykładowy kod w R do pracy z NYT API
  8. 5. Regresja logistyczna
    1. Eksperymenty myślowe
    2. Klasyfikatory
      1. Faza wykonywania
      2. Ty
      3. Interpretacyjność
      4. Skalowalność
    3. Przypadek regresji logistycznej w M6D
      1. Modele klikania
      2. Podłoże matematyczne
      3. Oszacowanie α i β
      4. Metoda Newtona
      5. Spadek gradientu stochastycznego
      6. Implementacja
      7. Ewaluacja
    4. Zadanie z Media6Degrees
      1. Przykładowy kod w R
  9. 6. Znaczniki czasu i modelowanie finansowe
    1. Kyle Teague i GetBlue
    2. Znaczniki czasu
      1. Eksploracyjna analiza danych (EDA)
      2. Metryki i nowe zmienne cech
      3. Co dalej?
    3. Cathy O’Neil
    4. Eksperyment myślowy
    5. Modelowanie finansowe
      1. W próbie, poza próbą i przyczynowość
      2. Przygotowywanie danych finansowych
      3. Notowania logarytmiczne
      4. Przykład: indeks S&P
      5. Opracowanie pomiaru zmienności
      6. Wykładniczy spadek wagi
      7. Pętla sprzężenia zwrotnego w modelowaniu finansowym
      8. Dlaczego regresja?
      9. Dodawanie aprioryczności
      10. Model dziecięcy
    6. Zadanie: GetGlue i zdarzenia opatrzone znacznikami czasu
      1. Zadanie: dane finansowe
  10. 7. Wydobywanie znaczeń z danych
    1. William Cukierski
      1. Podłoże — konkursy badania danych
      2. Baza wyjściowa — czerpanie z tłumu
    2. Model Kaggle
      1. Indywidualny zawodnik
      2. Ich nabywcy
    3. Eksperyment myślowy: jakie są etyczne następstwa Robo-Gradera?
    4. Wybór cech
      1. Przykład: zatrzymywanie (retencja) użytkowników
      2. Filtry
      3. Opakowania
        1. Wybór algorytmu
        2. Kryterium wyboru
        3. W praktyce
      4. Metody wbudowane — drzewa decyzyjne
      5. Entropia
      6. Algorytm drzewa decyzyjnego
      7. Postępowanie ze zmiennymi ciągłymi w drzewach decyzyjnych
      8. Lasy losowe
      9. Zatrzymywanie użytkownika — interpretacyjność a zdolność przewidywania
    5. David Huffaker: hybrydowe podejście Google do badań społecznych
      1. Przechodzenie od opisu do przewidywań
      2. Kwestie społeczne w Google
      3. Prywatność
      4. Eksperyment myślowy: najlepszy sposób na zmniejszenie obaw oraz zwiększenie zrozumienia i kontroli?
  11. 8. Doradzarki — budowanie na styku z użytkownikiem produktu danych na miarę
    1. Doradzarka z prawdziwego zdarzenia
      1. Rzut oka na algorytm najbliższego sąsiada
      2. Niektóre problemy z najbliższymi sąsiadami
      3. Wychodząc poza najbliższe sąsiedztwo — klasyfikacja uczenia maszynowego
      4. Problem wymiarowości
      5. Rozkład według wartości osobliwych (SVD)
      6. Istotne cechy SVD
      7. Analiza głównych składowych (PCA)
        1. Twierdzenie: wynikowe cechy ukryte będą nieskorelowane
      8. Zmieniając metodę najmniejszych kwadratów
        1. Twierdzenie bez dowodu: poprzedni algorytm będzie zbieżny, jeśli Twoja aprioryczność jest dostatecznie duża
      9. Ustal V i uaktualnij U
      10. Ostatnie przemyślenia w kwestii tych algorytmów
    2. Eksperyment myślowy — bąbelki filtrowania
    3. Zadanie: zbuduj własną doradzarkę
      1. Przykładowy kod w Pythonie
  12. 9. Wizualizacja danych i wykrywanie oszustw
    1. Historia wizualizacji danych
      1. Gabriel Tarde
      2. Eksperyment myślowy Marka
    2. Czym jest nauka o danych? Nowym rozdaniem?
      1. Processing — język programowania
      2. Franco Moretti
    3. Przykładowe projekty wizualizacji danych
    4. Marka projekty wizualizacji danych
      1. Foyer „New York Timesa” — „Skład ręczny”
      2. Projekt Cascade — życie na ekranie
      3. Cronkite Plaza
      4. Transakcje i książki z eBaya
      5. Maszyna Szekspirowska w Public Theater
      6. Cele tych ekspozycji
    5. Nauka o danych i ryzyko
      1. O firmie Square
      2. Wyzwanie dotyczące ryzyka
        1. Wykrywanie podejrzanych działań z użyciem uczenia maszynowego
      3. Kłopot z oszacowaniem działania
        1. Zdefiniowanie miary błędu
        2. Definiowanie etykiet
        3. Wyzwania dotyczące cech i uczenia
      4. Sposoby budowania modeli
        1. Czytelność kodu i możliwość ponownego użycia
        2. Znajdź sobie kogoś do pary!
        3. Produkcjonizowanie modeli uczenia maszynowego
    6. Wizualizacja danych w Square
    7. Eksperyment myślowy Iana
    8. Wizualizacja danych dla takich jak my
      1. Ćwiczenie z wizualizacji danych
  13. 10. Sieci społeczne i dziennikarstwo danych
    1. Analiza sieci społecznych w Morningside Analytics
      1. Dane przypadek-atrybut a dane sieci społecznościowej
    2. Analiza sieci społecznych
    3. Terminologia z obszaru sieci społecznych
      1. Miary centralności
      2. Branża miar centralności
    4. Eksperyment myślowy
    5. Metody analityczne w Morningside
      1. Jak wizualizacje pomagają znaleźć ławice ryb
    6. Szersze tło statystyczne analizy sieci społecznych
      1. Reprezentacje sieci i centralność wartości własnej
      2. Pierwszy przykład grafów losowych: model Erdősa-Rényiego
      3. Drugi przykład grafów losowych: wykładniczy model grafu losowego
        1. Wnioskowanie w ERGM-ach
        2. Dalsze przykłady grafów losowych: modele przestrzeni ukrytych, sieci małych światów
    7. Dziennikarstwo danych
      1. Kilka słów o historii dziennikarstwa danych
      2. Uprawianie dziennikarstwa technicznego — rady eksperta
  14. 11. Przyczynowość
    1. Korelacja nie implikuje przyczynowości
      1. Stawianie pytań przyczynowych
      2. Czynniki zaburzające: przykład z randkami
    2. Starania witryny OK Cupid
    3. Złoty standard — losowe próby kliniczne
    4. Testy A/B
    5. Z braku czegoś lepszego: badania obserwacyjne
      1. Paradoks Simpsona
      2. Model przyczynowy Rubina
      3. Wizualizacja przyczynowości
      4. Definicja: efekt przyczynowy
    6. Trzy zalecenia
  15. 12. Epidemiologia
    1. Wykształcenie i kariera zawodowa Madigana
    2. Eksperyment myślowy
    3. Współczesna statystyka akademicka
    4. Literatura medyczna i badania obserwacyjne
    5. Stratyfikacja nie rozwiązuje problemu czynników zaburzających
      1. Jak w praktyce postępuje się z czynnikami zaburzającymi
    6. Czy jest lepsze wyjście?
    7. Eksperyment badawczy (partnerstwo w wynikach obserwacji medycznych)
    8. Finalny eksperyment myślowy
  16. 13. Wnioski z konkursów danych: wycieki danych i ocenianie modelu
    1. Profil Claudii jako badaczki danych
      1. Żywot głównego badacza danych
      2. Jak to jest być badaczką danych
    2. Zawody w wydobywaniu danych
    3. Jak być dobrym modelarzem
    4. Wyciek danych
      1. Przewidywania rynkowe
      2. Przypadek Amazona: szastający pieniędzmi
      3. Problem z próbkami jubilerskimi
      4. Ukierunkowanie na nabywcę w IBM
      5. Wykrywanie raka piersi
      6. Przewidywanie zapalenia płuc
    5. Jak unikać wycieków
    6. Ocenianie modeli
      1. Dokładność — taka sobie!
      2. Liczą się prawdopodobieństwa, nie zera i jedynki
    7. Wybór algorytmu
    8. Przykład końcowy
    9. Przemyślenia na pożegnanie
  17. 14. Inżynieria danych — MapReduce, Pregel i Hadoop
    1. O Davidzie Crawshaw
    2. Eksperyment myślowy
    3. MapReduce
    4. Problem częstości słów
      1. Wejdź do systemu MapReduce
    5. Inne przykłady użycia systemu MapReduce
      1. Czego nie umie MapReduce?
    6. Pregel
    7. O Joshu Willsie
    8. Eksperyment myślowy
    9. Gdy się jest badaczem danych
      1. Obfitość danych czy ich niedobór
      2. Projektowanie modeli
        1. Bierz pod uwagę różnicę
    10. Interludium ekonomiczne — Hadoop
      1. Krótki wstęp do Hadoopa
      2. Cloudera
    11. Wracając do Josha — tok pracy
    12. Jak zatem zacząć z Hadoopem?
  18. 15. Głos studentów
    1. Proces myślowy
    2. Już nie naiwny
    3. Pomocne dłonie
    4. Twoje koszty mogą być różne
    5. Tunele spinające
    6. Z naszych prac
  19. 16. Następna generacja badaczy danych, arogancja i etyka
    1. Co zostało zrobione?
    2. Czym jest (spytajmy raz jeszcze!) nauka o danych?
    3. Jacy są badacze danych następnej generacji?
      1. Jak rozwiązywać problemy
      2. Doskonalenie kompetencji miękkich
      3. Jak zadawać pytania
    4. Jak być etycznym badaczem danych
    5. Rada dotycząca kariery
  20. A. O autorkach
  21. B.  
  22. Indeks
  23. Kolofon
  24. Copyright