Apache NiFi Anti-Patterns Part 4 - Scheduling

NiFi Notes

24 Sept 202022:42

Summary

TLDRDieses Video skizziert die Bedeutung von Planung, Threading und gleichzeitigen Aufgaben in Apache NiFi. Mark Payne, der Sprecher, betont, dass viele Benutzer diese Konzepte nicht vollständig verstehen, was die Leistung beeinträchtigen kann. Er erklärt, wie man den Thread-Pool size setzt, um die Datenflussleistung zu optimieren, und zeigt, wie man Prozessoren konfiguriert, um Engpässe zu vermeiden. Er diskutiert auch die Auswirkungen von Hardware-Design und Flow-Planung auf die NiFi-Leistung und rät, Änderungen schrittweise vorzunehmen, um die bestmögliche Konfiguration zu erreichen.

Takeaways

🔧 Die Konfiguration des Thread Pools ist entscheidend für die Leistung von Apache NiFi und kann den Durchsatz von tausend auf hunderttausend Ereignisse pro Sekunde pro Knoten steigern.
🛠️ Der Thread Pool-Size sollte im Allgemeinen zwischen dem Zweifachen und dem Vierfachen der Anzahl der CPU-Kerne liegen, je nach Systemgröße.
⚠️ Eine zu niedrige Einstellung des Thread Pools kann zu einer Unterausnutzung der Ressourcen führen, während eine zu hohe Einstellung das System überlasten kann.
🔄 Es ist wichtig, die Anzahl der Threads im Thread Pool pro Knoten zu beachten, nicht für die gesamte Clustergröße.
📈 Um die Leistung zu verbessern, sollte man mit der Konfiguration von Prozessoren beginnen, anstatt sofort den Thread Pool-Size zu erhöhen.
🔧 Die Einstellung 'Anzahl der gleichzeitigen Aufgaben' für einen Prozessor kann die Verarbeitungskapazität erhöhen, wenn dieser eine Engpass ist.
🕒 Die 'Laufdauer' eines Prozessors kann auf Millisekunden angepasst werden, um die Verarbeitung kleinerer Flow-Dateien zu optimieren (Micro-Batching).
📊 Die CPU-Auslastung sollte sorgfältig beobachtet werden, um zu entscheiden, ob der Thread Pool-Size erhöht werden sollte.
🚫 Ein zu hoher Wert für die Anzahl der gleichzeitigen Aufgaben kann zu Konflikt und Leistungsproblemen führen, daher sollte sie normalerweise nicht über 12 gehen.
💾 Wenn die CPU nicht die Bottleneck ist, könnten Probleme wie Datenträger-I/O oder die Flow-Design die Leistung limitieren.
📝 Der Flow-Design ist entscheidend für die Leistung; Verwendung großer Flow-Dateien mit vielen Datensätzen anstatt einer Vielzahl kleinerer Dateien.
🛑 Wenn die Leistung nicht durch die Erhöhung der Anzahl der gleichzeitigen Aufgaben oder anderer Einstellungen verbessert wird, könnte dies auf einen Datenträger-Bottleneck hinweisen.

Q & A

Was ist das zentrale Thema des Videos?
-Das zentrale Thema des Videos ist das Verständnis von Planung, threading und gleichzeitigen Aufgaben in Apache NiFi, um die Leistung und Stabilität eines NiFi-Clusters zu optimieren.
Welche Rolle spielt die Größe des Thread Pools in Apache NiFi?
-Die Größe des Thread Pools ist entscheidend, da sie bestimmt, wie viele Prozessoren gleichzeitig ausgeführt werden können, was direkt die Leistung und die Auslastung der Ressourcen beeinflusst.
Was passiert, wenn die Größe des Thread Pools zu niedrig eingestellt ist?
-Wenn die Größe des Thread Pools zu niedrig ist, wird die Ausnutzung der Ressourcen unteroptimal, da nicht genügend Aufgaben gleichzeitig durchgeführt werden können.
Was ist das Problem, wenn die Größe des Thread Pools zu hoch eingestellt ist?
-Eine zu hohe Größe des Thread Pools kann dazu führen, dass das System überlastet wird und möglicherweise nicht in der Lage ist, alle Hintergrundaufgaben zu verarbeiten, was zu Instabilität führen kann.
Wie sollte man die Größe des Thread Pools einstellen?
-Man sollte die Größe des Thread Pools normalerweise zwischen dem Zweifachen und dem Vierfachen der Anzahl der CPU-Kerne des Systems einstellen.
Was ist der Unterschied zwischen dem Event-Driven und dem Timer-Driven Thread Pool in NiFi?
-Der Event-Driven Thread Pool wird in der Regel nicht verwendet und sollte wahrscheinlich auf einen Thread eingestellt werden, während der Timer-Driven Thread Pool für die Ausführung von Prozessoren verwendet wird und daher wichtiger ist.
Was ist der Zweck des 'Run Duration'-Parameters in einem NiFi-Prozessor?
-Der 'Run Duration'-Parameter bestimmt, wie lange ein Prozessor ausgeführt wird, bevor er angehalten wird, um andere Prozesse eine Chance zu geben. Dies kann dazu beitragen, die Leistung zu verbessern, indem kleinere Flow-Dateien in Batches verarbeitet werden.
Was zeigt eine rote Verbindung in einem NiFi-Flow?
-Eine rote Verbindung zeigt an, dass es einen Engpass gibt und dass Daten gespeichert werden, weil der Prozessor, an den die Verbindung führt, nicht in der Lage ist, die Datenrate zu verarbeiten.
Wie kann man feststellen, ob die CPU-Auslastung hoch genug ist, um die Größe des Thread Pools zu erhöhen?
-Man kann die CPU-Auslastung mit Tools wie 'top' in Linux, der Taskleiste in Windows oder dem Aktivitätsmonitor in OSX überprüfen. Eine Last von unter 100% der verfügbaren Kerne deutet darauf hin, dass eine Erhöhung der Thread Pool-Größe möglicherweise notwendig ist.
Was sind die möglichen Ursachen für einen Leistungsverlust, wenn die CPU-Auslastung nicht hoch genug ist und die Größe des Thread Pools bereits optimal eingestellt ist?
-Wenn die CPU-Auslastung nicht hoch genug ist und die Größe des Thread Pools optimal, kann der Datenträger eine Engstelle darstellen. Die Verwendung mehrerer Festplatten oder schnellerer Speichertechnologien wie SSDs oder NVMe-Drives kann helfen, die Leistung zu verbessern.
Welche Rolle spielt die Flow-Design in der Leistung von NiFi?
-Das Flow-Design ist entscheidend für die Leistung. Ein Flow, der eine große Anzahl kleiner Flow-Dateien verarbeitet, kann zu Problemen wie vieler Müllsammlung, Swaps und Sperren führen. Es ist besser, Flows so zu designen, dass sie größere Flow-Dateien mit vielen Datensätzen verwenden.