Histogram

Histogram
Tradycyjne narzędzie
Zarządzanie jakością
TwórcaKarl Pearson
Powstanie18 listopad 1891
Przykład


Histogram - jeden z graficznych sposobów przedstawiania rozkładu empirycznego cechy. Składa się z szeregu prostokątów umieszczonych na osi współrzędnych. Prostokąty te są z jednej strony wyznaczone przez przedziały klasowe (patrz: szereg rozdzielczy) wartości cechy, natomiast ich wysokość jest określona przez liczebności (lub częstości, ewentualnie gęstość prawdopodobieństwa) elementów wpadających do określonego przedziału klasowego. Jest jednym z tradycyjnych narzędzi zarządzania jakością.

Spis treści

Pochodzenie/historia/wersje

Etymologia słowa histogram nie jest jasna. Czasami mówi się że pochodzi od greckiego słowa histos w znaczeniu poustawiania czegokolwiek, oraz słowa gramma - rysowanie, zapisywanie. Mówi się też, że autorem terminu jest Karl Pearson twórca metody oraz założyciel pierwszego na świecie uniwersyteckiego wydziału statystyki, na University College London. Karl Pearson na wykładzie w dn 18 listopada 1981 roku zaprezentował wyniki badań Weldona (Walter Frank Raphael Weldon) pokazując porównanie zestawów danych o zmienności populacji czasie (na przykładzie krabów), przedstawił te dane jako diagram czasowy i nazwał histogram.

Zastosowanie

Histogram możemy wykorzystać do sprawdzenia, jaka jest relacja pomiędzy analizowaną cecha (procesem) a stawianymi wymogami. Wymogami mogą być wymagania technologii, klienta itp. Dzięki temu możemy ocenić czy badany proces spełnia wymagania czy nie.

Opis

Histogram jest to wykres przedstawiający rozkładu badanej cechy (np. szerokości wyrobu) w formie pewnej liczby prostokątów, umieszczonych na osi współrzędnych X-Y. Szerokość prostokąta (W) reprezentuje pewien zakres wartości badanej cechy, natomiast wysokość prostokąta (H) reprezentuje liczbę przypadków (częstotliwość), gdy badana cecha zawiera się w danym zakresie.

Budowa histogramu

Histogram, podobnie jak pozostałe wykresy statystyczne, składa się z kilku części:

  • pola
  • wykresu
  • skali (aby ułatwić czytanie wykresu, stosuje się nieraz, zwłaszcza w prostokątnym układzie współrzędnych, dwie jednakowe skale na obu krańcach obrazu graficznego,

    tj skalę poziomą oraz dwie skale pionowe po lewej i po prawej stronie pola wykresu)
  • tytułu (w wykresach popularyzacyjnych tytuł należy umieścić nad obrazem graficznym, natomiast w publikacjach można go umieścić również pod rysunkiem)
  • legendy
  • źródła (jeżeli obok wykresu w tej samej publikacji zamieszczamy tablicę statystyczną z danymi liczbowymi i opatrzona jest ona opisem źródła informacji,

    wystarczy pod wykresem wymienić jako źródło numer kolejny tej tablicy)
i innych objaśnień.

Podstawą sporządzania histogramu opisującego prawidłowości występujące w zbiorowościach (zjawiskach)

jest układ współrzędnych prostokątnych, przy czym główną uwagę należy skupić na doborze skali

i precyzyjnym obrazie graficznym, a nie na opisie wykresu i jego atrakcyjności.

Szczególną postacią histogramu jest histogram kumulacyjny. Na osi odciętych w prostokątnym układzie

współrzędnych odkłada się wówczas liczebności skumulowane.

Przygotowanie histogramu

Przygotowanie histogramu składa się z kilku etapów tj:

Zebranie wyników pomiarowych

  • Należy pamiętać, aby odebrać próbkę w sposób losowy
  • Upewnić się, że metoda pomiaru danej cechy jest poprawna


Ustalenie liczby przedziałów (klas)

  • Ustal rozstęp (ang. range) dla całej pobranej próbki (wszystkich wyników). Rozstęp to wynik odejmowania najmniejszej wartości z próbki od wartości największej.




  • Określ liczbę potrzebnych przedziałów (ang. bins). Nie jest to łatwe zadanie gdyż, nie ma jednego sposobu na określenie liczby przedziałów. Przykładowo:
    • Liczba klas (k) zależy od liczebności badanej zbiorowości (n) i w przybliżeniu ustalamy ją jako pierwiastek kwadratowy z liczby obserwacji zaokrąglony do najbliższej liczby całkowitej:




Obliczenie szerokości przedziałów

Rozpiętość przedziałów ustalamy na podstawie różnicy między najwyższą i najniższą wartością cechy (tzw. rozstęp) podzielonej przez liczbą klas.Szerokość przedziału (W) możemy obliczyć na podstawie następującego wzoru:



gdzie k to uprzednio obliczona liczby przedziałów a R to także uprzednio obliczony rozstęp.Szerokość przedziału (W) należy zaokrąglić w górę do takie samego miejsca po przecinku, co zebrane dane pomiarowe.

Określenie wartości dla poszczególnych przedziałów

Dolną granicę dla pierwszego przedziału możemy określić jako minimalną wartość z danych pomiarowych. Jego górna granica to początek kolejnego przedziału. Kolejne przedziały wyznaczamy kolejno dodając do siebie szerokości przedziałów (W).Należy pamiętać, aby przedziały wzajemnie się wykluczały, czyli inaczej mówiąc obserwacje, które znajdują się "na granicy przedziałów" mogą należeć tylko do jednego z nich.

Poniższa tabela zawiera przykładowe zestawienie poszczególnych przedziałów dla k=7, w=0,8 i najmniejszej wartości w obserwacjach = 97,5

PrzedziałZakres przedziałuLiczba obserwacji w przedziale
197,50 - 98,29
298,30 - 99,09
399,10 - 99,98
499,90 - 100,69
5100,70 - 101,49
6101,50 - 102,29
7102,30 - 103,09


Określenie liczby obserwacji w danym przedziale

Po określeniu zakresów policz ile wyników pomiarów (obserwacji) należy do poszczególnych przedziałów. Każdą obserwacje zaznacza jedną pionową kreską I

PrzedziałZakres przedziałuLiczba obserwacji w przedziale
197,50 - 98,29III
298,30 - 99,09IIIIII
399,10 - 99,98IIIIIIIIIIII
499,90 - 100,69IIIIIIIIIIIIIIII
5100,70 - 101,49IIIIIIIIII
6101,50 - 102,29IIIII
7102,30 - 103,09I


W przypadku nierównych przedziałów klasowych przy konstruowaniu histogramu należy pamiętać o następujących zasadach:
  • na osi przedziałów klasowych odkładamy szerokości poszczególnych kolumn proporcjonalnie do rozpiętości przedziału klasowego,

  • wysokości kolumn zmniejszamy lub zwiększamy w stosunku odwrotnie proporcjonalnym do stopnia zmniejszenia lub zwiększenia szerokości kolumn.

Analiza histogramu



Średnia

Średnia (ang mean) pozwala nam na oszacowanie, gdzie jest środek analizowanego zbioru obserwacji. Dzięki temu możemy lepiej zrozumieć, jaka jest średnia wartość cechy i ewentualnie porównać ją ze średnia w innych histogramach o podobnej lub nieco innej zmienności. Poniższy wykres przedstawia dwa histogramy o tej samej liczby obserwacji (53), podobnej zmienności lecz o innej średniej. Dla wykresu A średnia wynosi 100.1 natomiast dla wykresu B średnia wynosi 102.1



Zmienność

Szerokość histogramu odzwierciedla stopień zmienności badanej cechy. Im szerszy jest histogram tym większa jest zmienność, im węższy histogram tym zmienność jest mniejsza. Zmienność najczęściej jest opisywana za pomocą odchylenia standardowego oznaczonego literą s lub σ (grecka litera sigma). Czasami stosuje się też oznaczenie StDev (ang. standard deviation).

Im większe jest odchylenie standardowe tym większa jest zmienność danej cechy.

Poniższy wykres przedstawia dwa histogramy o tej samej liczbie obserwacji i średniej ale o różnej zmienności. Wykres A jest szerszy od wykresu C. Odchylenie standardowe dla A wynosi σ = 1.078 natomiast wykres C ma odchylenie standardowe równe σ = 0.575.



Kształt

W naturze (w przyrodzie) większość cech, które chcielibyśmy opisać za pomocą histogramu ma rozkład normalny o ile nie występują jakieś zaburzenia, które zmieniają ten rozkład na inny niż normalny. Te zaburzenia określa się mianem "przyczyn specjalnych" (ang. special cause).

Histogram pozwala nam na wykrycie takich zaburzeń, poprzez analizę kształtu wykresu.

Rozkład normalny ma kształt przypominający dzwon lub górę o jednym szczycie i dwóch podobnie nachylonych zboczach. Przykład rozkładu normalnego przedstawia wykres A (zielony). Rozkład normalny posiadają też wykresy przedstawiane powyżej.

Rozkład skośny (ang. skewed). To rozkład asymetryczny, ponieważ istnieją jakieś czynniki (naturalne lub zaburzenia), które ograniczają liczbę obserwacji poniżej (lub powyżej) pewnej wartości. W zależności od czynnika ograniczającego lub zaburzającego taki wykres jest prawostronnie skośny (ang. right skewed) jak pokazano na wykresie E (szary) lub w lewostronnie skośny (ang. left skewed) jak pokazano na wykresie D (niebieski).

Rozkład dwumodalny (ang. bi-modal). Tego typu rozkład posiada dwa szczyty. Niekoniecznie muszą być one sobie równe. Wystarczy, że są widoczne. Taki wykres to najczęściej sygnał, że w badanej próbce mamy do czynienia sumą działania dwóch procesów (np. mamy dwóch dostawców tego samego wyrobu i te wyroby nieco się od siebie różnią). Sam wykres jest sumą dwóch lub więcej histogramów. Przykładem histogramu dwumodalnego jest wykres F (czerwony).

Rozkład wielomodalny (ang. plateau lub multi-modal). Podobnie jak w rozkładzie bimodlanym - tylko, że mamy więcej niż dwa czynniki (procesy) wpływające na zmienność. Histogram ma wtedy więcej niż dwa szczyty.

Histogram w ocenie jakości procesu



Histogram możemy wykorzystać do sprawdzenia, jaka jest relacja pomiędzy analizowaną cecha (procesem) a stawianymi wymogami. Wymogami mogą być wymagania technologii, klienta itp. Dzięki temu możemy ocenić czy badany proces spełnia wymagania czy nie.

W przypadku nie spełnienia wymagań, możemy sprawdzić następujące aspekty:

Przesunięcie średniej

Czy średnia jest w pobliżu wartości nominalnej (oczekiwanej)? Jeżeli mamy niewłaściwie ustawiony proces, wtedy zazwyczaj średnia histogramu jest przesunięta w pobliże lub poza granice tolerancji.



Zbyt duża zmienność

Czy zmienność procesu nie jest zbyt duża? Średnia procesu może być ustawiona poprawnie, ale zbyt duża zmienność powoduje powstawanie wad. Należy szukać przyczyn zbyt dużej zmienności oraz należy zastanowić się czy proces (sam z siebie) jest adekwatny do stawianych wymagań.



Niewłaściwy kształt

Jeżeli kształt histogramu powinien mieć rozkład normalny a ma inny to świadczy o tym, że w procesie jest zaburzenie (przyczyna specjalna). Tą przyczynę należy zidentyfikować i usunąć. Po usunięciu przyczyny proces powinien powrócić do stanu normalnego.



Uwagi

Dzięki histogramowi można łatwiej zrozumieć jak analizowany proces wygląda oraz jaki jest środek, zmienność i kształt analizowanych danych. Porównując histogram z limitami specyfikacji możemy szybko ocenić czy proces spełnia wymagania czy nie.

Na koniec warto zwrócić uwagę na kilka ważnych aspektów:

  • Histogram jak każde inne narzędzie statystyczne może też być źle wykorzystane. Manipulując liczbą przedziałów lub ich szerokością można zmieniać kształt wykresu. Dlatego ważne jest, aby podczas analizy histogramu zwrócić uwagę na to ile mamy próbek (n), ile mamy przedziałów i jak szerokie one są.
  • Histogram będzie odzwierciedlał rzeczywistość tylko wtedy, gdy dane będą aktualne i zebrane w odpowiedni sposób (odpowiednią metodą pomiaru). Jeżeli analizowane dane to próbka z większej populacji to należy także upewnić się czy została ona pobrana w sposób losowy.
  • Do opracowania histogramu warto stosować dobre oprogramowanie po to, aby nie tracić czasu na obliczenia oraz co ważniejsze, aby nie popełnić błędów w obliczeniach, które mogą skutkować późniejszymi błędnymi decyzjami.


Histogram może też służyć jako efektywne narzędzie w komunikacji lub podejmowania decyzji biznesowych szczególnie wtedy, gdy mamy do czynienia z dużą liczbę danych trudnych do przedstawienia w innej formie.

Linki zewnętrzne

Bibliografia

  • K. Zając: Zarys metod statystycznych, Polskie Wydawnictwo Ekonomiczne, Warszawa 1982
  • K. Kocimowski, J. Kwiatek: Wykresy i mapy statystyczne, GUS, Warszawa 1977
ostatnia modyfikacja 20 sierpnia 2016 r.