Industrielle Datenverarbeitung beginnt mit qualitativ hochwertigen Daten und physikalischen Kenntnissen

Jakub Ładyński

Effective opEin entscheidender Faktor für den Erfolg aller datenbasierter Vorhaben und Projekte ist die Qualität der Daten. Eine wirksame Optimierung und Diagnose der Infrastruktur erfordert korrekte Informationen von Prozessen und Geräten. Es ist nicht verwunderlich, dass die Verantwortlichen für Data Science 80 % ihrer Zeit nur für die Aufbereitung von Daten aufwenden.

Okładka Dobre dane i znajomość fizyki to podstawa Data Science w produkcji

Eine intelligente Validierung ist notwendig, um eine zufriedenstellende Datenqualität zu erreichen. Intelligent bedeutet nicht automatisch die Verwendung fortschrittlicher Algorithmen für maschinelles Lernen. In erster Linie sollten arithmetische Methoden verwendet werden: mathematische, physikalische und chemische Formeln und Branchenkenntnisse.

Intelligente Validierung bedeutet nicht automatisch die Verwendung fortschrittlicher Algorithmen für maschinelles Lernen. Beginnen Sie mit physikalischen und mathematischen Formeln.

Diese Aufgabe erfordert geeignete Werkzeuge wie z. B. Cloud-Analyseprogramme. Das gewählte Analysewerkzeug sollte für Zeitreihendaten (viele Messwerte von einem einzigen Gerät) ausgelegt sein. Außerdem sollte es die Verwendung verschiedener Algorithmen von einfachen Berechnungen bis hin zu fortgeschrittenen statistischen Methoden ermöglichen und intuitiv und skalierbar sein. Das beliebte Excel erfüllt diese Bedingungen nicht. Als Lösungen bieten wir die Smart RDM Data Science Platform in der Azure-Cloud und das Tool unseres Partners Seeq an.

Woher kommen Datenfehler?

Es gibt einige Ursachen für schlechte Datenqualität. Dazu gehören unsachgemäß ausgeführte Software-Installationen, die zu Fehlern oder einer unzureichenden Verarbeitung bestimmter Ereignisse führen, z. B. eine falsche Konfiguration des DCS/SCADA-Systems.

Eine weitere Ursache können Probleme auf systemischer Ebene sein. Wenn es sich bei der Datenquelle um ein Telemetrie-System handelt, dann werden die Messwerte von realen Geräten erfasst. Wie wir wissen, sind Geräte auch mal defekt, so dass oft schon während der Messung oder bei der Übermittlung von Werten Fehler auftreten. Häufige Vorkommnisse sind zum Beispiel Übertragungsfehler, Datenlücken und falsche Werte – Ablese-Anomalien. Außerdem können Sensoren beschädigt werden, was zum Empfang von unsinnigen Werten führt.

Auch das Datenübertragungssystem selbst kann beschädigt sein, wenn es falsch skaliert oder ein Gerät ausgetauscht wurde. Eine weitere Ursache für schlechte Qualität ist eine Änderung des Datenformats, die sich auf die Quellen oder das Ziel-Data-Warehouses auswirkt.

Phasen der Datenerhebung

Die Erhebung sämtlicher Daten ist unmöglich. Wie können wir also die vorhandenen Daten überprüfen, so dass sie uns nicht zu falschen Interpretationen und Schlussfolgerungen verleiten? Wir müssen den Prozess der Datenbereinigung durchlaufen:

Etapy czyszczenia danych
  1. Identifizierung wir wollen genau wissen, welche Daten von welchem Gerät stammen. Eine Fernwärme-Verteilerstation kann zum Beispiel fünf Temperaturmesser und zwei Durchflussmesssensoren besitzen. Wir können nicht wahllos die Daten des vierten Zählers verwenden, wenn wir die Daten des ersten Zählers benötigen. Wir müssen wissen, welches Gerät welches ist. Um dies zu erreichen, ordnen wir den Geräten Daten zu, so dass sie korrekt identifiziert werden können. Wir ordnen sie in einer Baumstruktur an.
  2. Harmonisierung Geräte verschiedener Hersteller verwenden unterschiedliche Kodierungen, Arten der Verschlüsselung von Daten oder sogar Einheiten. Ziel der Harmonisierung ist es, alle Daten in ein gemeinsames Format zu bringen und eine Normierung auf der Grundlage eines standardisierten Kodierungssystems einzuführen.
  3. Überprüfung der Vollständigkeit der Daten – wir müssen sicherstellen, welche Teile der Daten fehlen und warum. Es ist nicht sinnvoll, die Messwerte für ein Gerät zu schätzen, das zu einem bestimmten Zeitpunkt absichtlich ausgeschaltet wurde, um z. B. Wartungsarbeiten durchzuführen. Ermittelte Datenlücken, die geschlossen werden müssen, werden in den nächsten Schritten des Prozesses geschätzt.
  4. Füllen von Datenlücken – dazu können verschiedene Methoden verwendet werden: von der Arithmetik über die Statistik bis hin zum maschinellen Lernen.

    Bei den arithmetischen Methoden berechnen wir die fehlenden Daten auf der Grundlage der verbleibenden Daten mit einfachen mathematischen Operationen, physikalischen Gleichungen usw. Wir können auch eine lineare Annäherung verwenden, bei der wir die letzten Daten, die wir hatten, Punkt für Punkt mit den ersten, die auftauchen, verbinden. Die lineare Annäherung ist am einfachsten, führt aber leider oft zu Fehlern.

    Aus diesem Grund sind statistische Methoden so beliebt. Wir berechnen anhand historischer Daten und fortgeschrittener mathematischer Modellierung, welche Werte theoretisch an einem bestimmten Ort auftreten sollten. Diese Methoden sind besonders nützlich bei Phänomenen, die wir nicht mit arithmetischen Formeln beschreiben können. Wir können sie zum Beispiel verwenden, wenn wir die Abhängigkeit zwischen der Windgeschwindigkeit und den Schwingungen einer Turbine, die in einem Windpark in der Nähe anderer Turbinen steht, ermitteln wollen. Dann gewinnen Faktoren wie die Windrichtung an Bedeutung, denn die Turbinen behindern sich gegenseitig und stören den Windfluss.

    Schließlich können wir Modelle des maschinellen Lernens verwenden. Diese Modelle lernen auf der Grundlage historischer Daten, wie sich Geräte normalerweise verhalten. Auf der Grundlage der Analyse von Ereignissen, die in der Vergangenheit aufgetreten sind, versucht das Modell vorherzusagen, wie sich die Maschine in Zeiträumen verhalten sollte, in denen es Datenlücken gibt. Wir bieten viele bereits vorbereitete Algorithmen, die Sie nutzen können oder Sie erstellen Ihre eigenen.
Metody analizy danych: Arytmetyczna, Statystyczna, Machine Learning

Es gibt auch eine alternative Methode: die Umgebungsanalyse. An einem vorgegebenen Ort können wir Daten von benachbarten und ähnlichen Geräten verwenden. Wenn wir zum Beispiel wissen, dass die Gebäude nebeneinander stehen, müssen wir die Umgebungstemperatur nicht statistisch berechnen – wir brauchen nur einen “Blick auf unseren Nachbarn” zu werfen. Wir bauen eine Logik auf, die auf einem System basiert, das die Parameter auf der Grundlage des Verhaltens einer ganzen Familie ähnlicher Objekte in unmittelbarer Nähe berechnet. Dies ist der am weitesten fortgeschrittene Ansatz. 

Nach der Erhebungsphase haben wir vollständige Daten. In den nächsten Schritten werden wir diese Daten auf ihre Korrektheit hin überprüfen.

5. Validierung – unter unseren Daten können sich falsche Werte befinden. Diese Daten sind technisch korrekt, passen aber logisch nicht zusammen. Wir wissen zum Beispiel, dass die Außentemperatur im Winter in London nicht 120 Grad Celsius betragen kann.

Auch hier verwenden wir zunächst die Mathematik, um Validierungsregeln festzulegen, wie zum Beispiel, dass die Außentemperatur zwischen -50 und +50 Grad Celsius liegen muss. Wir fügen eine Regel hinzu, dass Daten außerhalb dieses Bereichs falsch sind.

Jetzt sind wir es, die Lücken schaffen, die wir später füllen werden. Wir prüfen, ob die Daten in einem vernünftigen Rahmen liegen. Alle Daten, die außerhalb des Bereichs liegen, betrachten wir als fehlerhaft.

Außerdem können wir physikalische oder chemische Modelle verwenden, um falsche Werte auszuschließen. Wir geben Daten in die Gleichungen ein und löschen diejenigen, die keine korrekten Ergebnisse liefern. Später, um diese Werte zu ergänzen, wiederholen wir den Schritt mit den eingegebenen Daten. Je nach Komplexität der Daten und Abhängigkeiten setzen wir Mathematik, Statistik und maschinelles Lernen ein.

Bei der Validierung nutzen wir auch Branchenkenntnisse, um das Verhalten eines bestimmten Geräts genau zu modellieren. Zum Beispiel haben Messgeräte eine bestimmte maximale Reichweite, nach der sie auf Null zurückgehen und erneut zu zählen beginnen. Dank des Expertenwissens können wir eine Validierungsregel aufstellen, die nach solchen “Wendungen” sucht und das Datenwachstum korrekt verfolgen lässt.

Nach Abschluss all dieser Schritte erhalten wir ein klares Resultat. Mit unseren korrekten Daten können wir nun fortschrittliche Modelle erstellen, die auf anspruchsvollen Analysen wie der vorausschauenden Instandhaltung basieren, um beispielsweise den Energiebedarf oder die aktuelle Diagnose des Gerätebetriebs zuverlässig vorherzusagen.

Historische Daten

Bei mathematischen und physikalischen Modellen brauchen wir keine historischen Messdaten, um Berechnungen durchzuführen. Anders sieht es bei statistischen Methoden und dem maschinellen Lernen aus. Hierfür sind historische Daten erforderlich. Je mehr Werte aus der Vergangenheit vorliegen, desto effizienter wird unsere Validierung sein.

Lernmodelle sind nicht narrensicher; deshalb werden sie am besten als unterstützende, nicht als entscheidende Systeme eingesetzt. Je mehr historische Daten ein solches System jedoch aufnimmt, desto zuverlässiger und präziser wird es sein.

Für die Verarbeitung historischer Daten im Rahmen der Validierung benötigen Sie spezielle Lösungen wie Smartvee oder Seeq, die auf die Analyse von Zeitreihendaten vorbereitet sind und Analysen auf verschiedenen Komplexitätsebenen ermöglichen.

Warum ist das maschinelle Lernen nicht die wichtigste Methode?

Maschinelles Lernen kann Thermodynamik, Physik oder Mathematik nicht ersetzen. Es ist wichtig, ein gutes Verständnis eines Phänomens zu bekommen, das wir modellieren. Der Aufbau eines Systems sollte mit einer Beschreibung bekannter Ereignisse, die wir aus der Chemie, Physik, Biologie und anderen Wissenschaftszweigen kennen, beginnen. Erst danach können wir Algorithmen des maschinellen Lernens einbeziehen.

Um dies zu erreichen, beginnen wir mit Business-Workshops. Mit Teams, die täglich mit Infrastruktur und Geräten zu tun haben, wiederbeleben wir gemeinsam Daten, bewerten sie (welche Phänomene auftreten) und fragen nach den Ursachen von Anomalien. Wir beziehen Ingenieure, Datenwissenschaftler, Geschäftsinhaber und Fachexperten mit technischem Wissen ein.

Da bei wenig komplizierten Prozessen Lernmodelle suboptimal sind, setzen wir diese Methode erst ein, wenn wir alle Möglichkeiten ausgeschöpft haben, Dinge zu modellieren, die wir mit Gleichungen beschreiben können. Erst danach soll der Einsatz des Algorithmus die Qualität der Daten weiter verbessern.

Vorteile der Datenvalidierung

Bereinigte qualitativ hochwertige Daten sind eine effektive Grundlage für weitere zuverlässige Analysen, wie z. B. eine Vorhersage der Energieerzeugung, des Ressourcenverbrauchs oder der Instandhaltungsplanung. Den Schritt der Datenaufbereitung zu überspringen und direkt mit der Analyse zu beginnen, stellt die Qualität der Analyse in Frage.

Die ConnectPoint bietet die komplette Lösung: von der Datenerfassung bis zur fortschrittlichen Analyse. Wir bauen ein umfassendes Daten-Repository auf, das die Daten aufbereitet und harmonisiert. Darauf bauen wir dann die analytischen Schichten auf, die für ihre Bedürfnisse am besten geeignet ist. Schreiben Sie uns Schreiben Sie uns, um mehr darüber zu erfahren, wie Sie die Datennutzung in Ihrem Unternehmen verbessern können. 

Autorin: Joanna Stefanska