Heap Sort

Heapsort 1 Heapsort Der Heapsort-Algorithmus beim Sortieren eines Arrays aus permutierten Werten. Der Algorithmus besteht aus zwei Schritten; im vorbereitenden Schritt wird das Array zu einem bin€ren Heap umgeordnet, dessen Baumstruktur vor dem eigentlichen Sortierschritt kurz eingeblendet wird. Heapsort (Haldensortierung) ist ein in den 1960ern von Robert W. Floyd und J. W. J. Williams entwickeltes Sortierverfahren. Seine Komplexit€t ist bei einem Array der L€nge n in der Landau-Notation ausgedr•ckt in und ist damit asymptotisch optimal f•r Sortieren per Vergleich. Heapsort arbeitet zwar in-place, ist jedoch nicht stabil. Der Heapsort-Algorithmus verwendet einen bin€ren Heap als zentrale Datenstruktur. Heapsort kann als eine Verbesserung von Selectionsort verstanden werden und ist mit Treesort verwandt. Algorithmus Die Eingabe ist ein Array mit zu sortierenden Elementen. Als erstes wird die Eingabe in einen bin€ren Max-Heap •berf•hrt. Aus der Heap-Eigenschaft folgt direkt, dass nun an der ersten Array-Position das gr‚ƒte Element steht. Dieses wird mit dem letzten Array-Element vertauscht und die Heap-Array-Gr‚ƒe um 1 verringert, ohne den Speicher freizugeben. Die neue Wurzel des Heaps kann die Heap-Eigenschaft verletzen. Die Heapify-Operation korrigiert gegebenenfalls den Heap, so dass nun das n€chstgr‚ƒere bzw. gleich groƒe Element an der ersten Array-Position steht. Die Vertausch-, Verkleiner- und Heapify-Schritte werden so lange wiederholt, bis die Heap-Gr‚ƒe 1 ist. Danach enth€lt das Eingabe-Array die Elemente in aufsteigend sortierter Reihenfolge. In Pseudocode: heapsort(Array A)  build(A)  assert(isHeap(A, 0))  tmp A.size  while (A.size > 1)  A.swap(0, A.size - 1)  A.size A.size - 1  heapify(A)  assert(isHeap(A, 0))  A.size tmp  assert(isSorted(A)) Bei einer Sortierung in absteigender Reihenfolge wird statt des Max-Heaps ein Min-Heap verwendet. In einem Min-Heap steht an erster Stelle das kleinste Element. Gem€ƒ der Definition von einem bin€ren Heap wird die Abfolge der Elemente in einem Heap durch eine Vergleichsoperation (mathematisch: Relation) bestimmt, die eine totale Ordnung auf den Elementen definiert. In einem Min-Heap ist das die -Relation und in einem Max-Heap die -Relation. Der Pseudocode abstrahiert von der Vergleichsoperation. Die zu sortierenden Elemente werden auch als (Sortier-)Schl•ssel bezeichnet. Pro Index-Position kann das Eingabe-Array mehrere Datenkomponenten enthalten. In dem Fall muss eine Komponente als Sortierschl•ssel definiert werden, auf der die Vergleichsoperation arbeitet. Die Vertauschoperation vertauscht komplette Array-Eintr€ge. Die assert-Operation im Pseudocode dokumentiert welche Eigenschaften das Array nach welchen Algorithmus-Schritten korrekterweise erf•llt bzw. erf•llen muss.

  • Heapsort 2

    Beispiel fr Heapsort mit Zahlen

    In der Abbildung wird die Sortierung der Beispielzahlenfolge

    23 1 6 19 14 18 8 24 15

    mit dem Heapsort-Algorithmus dargestellt. Die einzelnen Teilbilder sind von links nach rechts und von oben nachunten chronologisch angeordnet. Im ersten Teilbild ist die unsortierte Eingabe und im letzten die sortierte Ausgabeabgebildet. Der bergang vom ersten zum zweiten Teilbild entspricht der Heapifizierung des Eingabe-Arrays. Diean einer Swap-Operation beteiligten Elemente sind rot und mit unterbrochenen Pfeilen markiert, dicke Doppelpfeilebezeichnen die an einer Heapify-Operation beteiligten Elemente und grn markierte Elemente zeigen den schonsortierten Anteil des Arrays an. Die Element-Indizes sind mit kleinen schwarzen Knoten eingezeichnet, jeweils linksunten von dem Element-Wert. Eine blaue Hinterlegung der Array-Elemente indiziert die Laufzeit derHeapsort-Prozedur.Die Indizes entsprechen einer aufsteigenden Nummerierung nach Level-Order, beginnend mit 0. In einerImplementierung des Algorithmus ist die Baumstruktur implizit und das Array der Elemente zusammenhngend,was durch die Platzierung der Element-Indizes in der Abbildung angedeutet wird.

    EffizienzMan kann zeigen, dass der Aufbau des Heaps, in Landau-Notation ausgedrckt, in Schritten ablaufen kann.In einem groen, zufllig verteilten Datenfeld (100 bis 1010 Datenelemente) sind durchschnittlich mehr als 4 aberweniger als 5 signifikante Sortieroperationen pro Element ntig (2,5 Datenvergleiche und 2,5 Zuweisungen). Diesliegt daran, dass ein zuflliges Element mit exponentiell zunehmender Wahrscheinlichkeit einen geeignetenVaterknoten findet (60%, 85%, 93%, 97%, ...).

  • Heapsort 3

    Die Heapify-Operation bentigt im ungnstigsten Fall (Worst Case) Schritte. Dies ist bei exakt inverserReihenfolge der Fall. Durchschnittlicher und ungnstigster Fall unterscheiden sich jedoch praktisch nurunwesentlich: zu . Gnstig ist nur ein Feld, dessen Elemente fast alle den gleichen Werthaben. Sind aber nur weniger als ca. 80% der Daten identisch, dann entspricht die Laufzeit bereits demdurchschnittlichen Fall. Eine vorteilhafte Anordnung von Daten mit mehreren verschiedenen Werten istprinzipbedingt unmglich, da dies der Heapcharakteristik widerspricht.Den Worst Case stellen mit weitgehend vorsortierte Daten dar, weil der Heapaufbau de facto eineschrittweise vollstndige Invertierung der Sortierreihenfolge darstellt. Der gnstigste, aber unwahrscheinliche, Fallist ein bereits umgekehrt sortiertes Datenfeld (1 Vergleich pro Element, keine Zuweisung). Gleiches gilt, wenn fastalle Daten identisch sind.Auf heterogenen Daten vorsortiert oder nicht dominiert Heapify mit wenigstens ber 60% der Zeit, meistensber 80%. Somit garantiert Heapsort eine Gesamtlaufzeit von . Auch im besten Fall wird eineLaufzeit von bentigt.[1][2]

    AbgrenzungIm Durchschnitt ist Heapsort nur dann schneller als Quicksort, wenn Vergleiche auf den zu sortierenden Daten sehraufwendig sind und gleichzeitig eine fr Quicksort ungnstige Datenanordnung besteht (z.B. viele gleicheElemente). In der Praxis ist bei unsortierten oder teilweise vorsortierten Daten Quicksort oder Introsort um einenkonstanten Faktor (2 bis 5) schneller als Heapsort. Dies wird jedoch kontrovers diskutiert und es gibt Analysen, dieHeapsort vorne sehen, sowohl aus Implementierungs- wie auch aus informationstheoretischen berlegungen.Allerdings spricht das Worst-Case-Verhalten von gegenber bei Quicksort fr Heapsort.Introsort ist dagegen in fast allen Fllen schneller als Heapsort, lediglich in entarteten Fllen 20% bis 30%langsamer.


    Bottom-Up-HeapsortDie wichtigste Variante des Heapsort-Algorithmus ist Bottom-Up-Heapsort, das hufig fast die Hlfte der ntigenVergleichsoperationen einsparen kann und sich folglich besonders da rentiert, wo Vergleiche aufwendig sind. (Siehedort auch die wissenschaftlich entscheidenden Referenzen zu Heapsort.)

    SmoothsortNormales Heapsort sortiert bereits weitgehend vorsortierte Felder nicht schneller als andere. Die grten Elementemssen immer erst ganz nach vorn an die Spitze des Heaps wandern, bevor sie wieder nach hinten kopiert werden.Smoothsort ndert das, indem es im Prinzip die Reihenfolge des Heaps umdreht. Dabei ist allerdings betrchtlicherAufwand ntig, um den Heapstatus beim Sortieren aufrechtzuerhalten.

    Ternre HeapsEine andere Optimierung verwendet statt binren ternre Heaps. Diese Heaps beruhen statt auf Binrbumen aufBumen, bei denen jeder vollstndig besetzte Knoten 3 Kinder hat. Damit kann die Zahl der Vergleichsoperationenum etwa 34% reduziert werden (bei einigen Tausend bis einigen Millionen Elementen). Auerdem sinkt dersonstige Aufwand deutlich; insbesondere mssen durch den flacheren Heap knapp ein Drittel weniger Elementebeim Versickern (Heapify) verschoben werden.In einem binren Heap kann ein Element mit 2n Vergleichen um n Ebenen abgesenkt werden und hat dabei durchschnittlich 3/2(2n-1) Indizes bersprungen. In einem ternren Heap kann ein Element mit 3m Vergleichen um

  • Heapsort 4

    m Ebenen abgesenkt werden und hat dabei durchschnittlich 3m-1 Indizes bersprungen. Wenn bei gleicherReichweite der relative Aufwand x := 3m/2n ist, dann gilt

    , also

    Bei n=18 (realistisch bei knapp 1 Million Elementen) ergibt sich 0,977; die 1 wird oberhalb von n=10 unterschritten.In der Praxis ist die Ersparnis etwas grer, u.a. deswegen, weil ternre Bume mehr Bltter haben und deshalb beimAufbau des Heaps weniger Elemente versickert werden mssen.Insgesamt kann die Sortierung mit ternren Heaps bei groen Feldern (mehrere Millionen Elemente) und einfacherVergleichsoperation 2030% Zeit einsparen. Bei kleinen Feldern (bis etwa tausend Elemente) lohnen sich ternreHeaps nicht oder sind sogar langsamer.

    n-re HeapsBei noch breiteren Bumen bzw. flacheren Heaps steigt die Zahl der ntigen Vergleichsoperationen wieder an.Trotzdem knnen sie vorteilhaft sein, weil der sonstige Aufwand (vor allem der fr das Kopieren von Elementen)weiter sinkt und geordneter auf die Elemente zugegriffen wird, was die Effizienz von Caches erhhen kann. Sofernbei groen Feldern nur ein einfacher numerischer Vergleich durchzufhren ist und Schreiboperationen relativlangsam sind, knnen 8 oder mehr Kinder pro Knoten optimal sein.Einfache Beispielsimplementierung mit Heaps beliebiger Aritt (WIDTH, mit WIDTH>=2) in derProgrammiersprache C:

    static size_t heapify(int *data, size_t n, size_t WIDTH, size_t root)


    assert(root < n);

    size_t count = 0;

    int val = data[root];

    size_t parent = root;

    size_t child = 0;

    assert(parent * WIDTH >= parent); // Overflow-Test

    while ( (child = parent * WIDTH + 1) < n ) // erstes Kind;

    { // Abbruch am Ende des


    size_t w = n - child < WIDTH ?

    n - child : WIDTH; // Anzahl der vorhandenen


    count += w;

    size_t max = 0;

    for (size_t i = 1; i < w; ++i ) // grtes Kind suchen

    if (data[child+i] > data[child+max])

    max = i;

    child += max;

    if (data[child]

  • Heapsort 5

    parent = child; // in der Ebene darunter



    data[parent] = val; // gesiebten Wert eintragen

    return count;


    size_t nhsort(int * data, size_t n, size_t WIDTH)


    assert(WIDTH > 1);

    if (n < 2)

    return 0;

    size_t m = (n + WIDTH - 2) / WIDTH; // erstes Blatt im Baum

    int count = 0; // Zhler fr Anzahl der


    assert(m > 0);

    for (size_t r = m; r > 0; --r) // Teil 1: Konstruktion des Heaps

    count += heapify(data, n, WIDTH, r-1);

    for (size_t i = n - 1; i > 0; --i) { // Teil 2: eigentliche Sortierung

    int tmp = data[0]; // Spitze des Heaps hinter den

    Heap in

    data[0] = data[i];

    data[i] = tmp; // den sortierten Bereich


    count += heapify(data, i, WIDTH, 0);


    return count;


    Zu Vergleichszwecken gibt die Funktion die Anzahl der durchgefhrten Vergleiche zurck.

    HeapsortAlgorithmus Beispiel fr Heapsort mit Zahlen Effizienz Abgrenzung Varianten Bottom-Up-Heapsort Smoothsort Ternre Heaps n-re Heaps

    Einzelnachweise Literatur Weblinks