Data Science Challenge

— English part below —

Energiewende!

Vorhersage von Leistungsdaten im Kontext der Halbleiterproduktion.

Die aktuelle Energiepolitik und die damit verbundenen Energieziele Deutschlands (Senkung des CO2-Ausstoß bis 2050 um 95% unter das Niveau von 1990), nehmen Großverbraucher in die Pflicht, ihren Energieverbrauch stetig zu optimieren. Halbleiterhersteller gehören mit einem Energieverbrauch von rund 1,5 TWh pro Jahr (maßgeblich Strom und Erdgas) zu den energieintensiven Unternehmen.

Um auf den Stromverbrauch positiv einwirken zu können, benötigen betroffene Unternehmen neben der Erkenntnis, wie viel Strom, durch welche Verbraucher, in welchen Bereichen genutzt wird, Kenntnisse hinsichtlich der Einflussfaktoren, wie z.B. den Einfluß spezifischer Produktionsparameter oder Komponenten, wie Pumpen unterschiedlicher Effizienzklassen, auf den Verbrauch.

Durch die Komplexität der Verbraucherstruktur, eine schlechte Datenlage bezüglich des Energieverbrauchs sowie ständige Änderungen an den Prozessparametern einzelner Fertigungsanlagen ist es nicht möglich ein vollständiges formales Modell zu erstellen. Dennoch werden nach heutigem Stand schon einfache Modelle erstellt, die aus historischen Energieverbrauchsdaten den Leistungsbedarf für die Zukunft vorhersagen. Jedoch sind diese Modelle begrenzt in ihrer Genauigkeit und Skalierbarkeit bzgl. der Datenmenge sowie ihrer Erklärbarkeit.

Um die Modellierung so genau wie möglich zu gestalten, sind zwei Komponenten notwendig. Zum einen, welcher Energieverbrauch tatsächlich entstanden ist und zum anderen, welche Werkstücke (WIP=Work in Progress) auf einer Anlage prozessiert wurden. Wie in einer Küche haben Halbleiteranlagen dabei verschiedenen Stationen. Zum einen gibt es Backöfen oder Induktionsherde, die einen hohen Energieverbrauch haben. Es gibt aber auch Roboter (wie der Koch), die das Material innerhalb der Anlage oder der Küche einfach nur hin und her bewegen. Ein solcher Roboter verbraucht nicht so viel Energie wie z.B. eine Plasmakammer (der Backofen) oder ein Lithografie-Prozess, der mit einem hochenergetischen Laser arbeitet. Der Energieverbrauch für einen Backofen oder Herd ist zudem abhängig vom Rezept. So verbraucht ein Truthahn bei 120°C Umluft, der 9 Stunden im Ofen ist, wesentlich mehr Energie, als ein Fischstäbchen was bei 220°C Ober- und Unterhitze nur 12,5 Minuten im Backofen braucht. Das Gleiche gilt im übertragenen Sinne auch für Fertigungsanlagen, die für verschiedene Endprodukte verschiedene Rezepte nutzen. Der bereitgestellte Datensatz beinhaltet dafür nicht nur die Zeiten auf der jeweiligen Station sondern auch Rezeptnamen, die einen Prozess auf der Anlage beschreiben.

In der Halbleiterfertigung gibt es nicht an allen Anlagen (Tools) einen Leistungsmesser. Um Kosten zu sparen, sind nur an einigen Anlagen dedizierte Leistungsmesser installiert. Es gibt aber mindestens eine Anlage mit einer dedizierten Messeinrichtung pro Anlagengruppe. Jede Anlage innerhalb einer Anlagengruppe verhält sich bzgl. des rezeptabhängigen Verbrauchs ähnlich.

Aufgabenstellung

Der vorgegebene Trainingsdatensatz beinhaltet Leistungsdaten einzelner Messeinrichtungen an der Anlage für ein Jahr sowie den dazugehörigen WIP. Die Leistungsdaten werden unabhängig von den Anlagen gemessen und stehen entsprechend in einer anderen zeitlichen Auflösung zur Verfügung. Zuerst müssen die Leistungsdaten mit dem korrekten WIP verbunden werden. Auf Basis der kombinierten Daten soll ein Modell (oder ein Ensemble) erstellt werden, welches für gegebene WIP-Profile die Leistungsdaten für alle Anlagen vorhersagt.

Die Bewertung erfolgt in zwei Phasen. In der ersten, öffentlichen Phase findet die Bewertung ausschließlich auf Basis eines Leaderboards statt. Dazu wird nur die Genauigkeit des Modells bewertet. Auf der Grundlage eines Testdatensatzes soll die benötigte Leistung vorhergesagt werden. Der Testdatensatz besteht aus den WIP-Daten, die zeitlich gesehen nach dem Trainingsdatensatz anfallen. Außerdem enthalten sind einzelne Anlagen, die den gleichen Typ wie Anlagen im Trainingsdatensatz haben, jedoch selbst nicht im Trainingsdatensatz vorkommen.

Die TOP 5 Teams zum Zeitpunkt des Leaderboard Freezes werden auf Basis einer schriftlichen Ausarbeitung durch eine Fachjury in den Punkten Erklärbarkeit und Anwendbarkeit des Modells in der Praxis bewertet.

1. Genauigkeit des Models (primäres Kriterium)

1. Mit welchem Fehler kann das Modell die benötigte Leistung vorhersagen?

2. Zur Evaluation wird der Symmetric Mean Absolute Percentage Error (SMAPE) über den N Anlagen mit dem Zeithorizont T der Testdaten verwendet.

2. Erklärbarkeit des Modells

1. Kann das Modell auch zur Identifizierung von Stationen herangezogen werden, die einen signifikant höheren Verbrauch haben als andere?

2. Kann das Modell zur Leistungsoptimierung der Anlagen genutzt werden?

3. Anwendbarkeit des Modells in der Praxis

1. Wie oft muss das Modell über die Zeit neu trainiert werden?

2. Benötigte Datenmenge für das Training

3. Verfügbarkeit der genutzten Algorithmen in R oder Python

4. Laufzeit des Trainings

5. HW-Anforderungen des Models

Liste der Spalten und deren Bedeutung

Alle Daten liegen in Folgenden Strukturen vor:

Zeilen sind mit “\n” abgeschlossen
Dezimalzahlen werden mit “.” (in Worten PUNKT) getrennt
Felder werden mit ; abgetrennt.
String sind NICHT gequotet
Die Zeitstempel der beiden Daten sind in der gleichen Zeitzone

1. Leistungsdaten

Spaltenname, Einheit / Datentyp, Erläuterung

Tool, String, Eindeutige Bezeichner für das Tool

measureTS, timestamp(6), Der Zeitpunkt an dem der Zählerstand gemessen wurde

currentCharge, double (in kWH), Der gemessener Zählerstand

2. WIP-Daten

Spaltenname, Einheit / Datentyp, Erläuterung

tool, String, Eindeutige Bezeichner für das Tool

entity, String, Ein Bezeichner der Subkomponente eines Tools

beginTS, timestamp(6), Der Beginn des Events

endTS, timestamp(6), Das Ende des Events

duration, double [Days], Die Länge des Events gemessen in Tagen.

segment, String, Der Name der Tätigkeit, die auf der Subkomponente durchgeführt wird.

rezept, String, Eine Zeichenkette, die den Prozess beschreibt, was auf dem Tool ausgeführt wurde

material, String, Ein eindeutiger Bezeichner des Wafers

controljob, String, Eine logische Gruppierung eines Arbeitsablaufes mit dem gleichen Rezept

Prozessmodell

Ein Tool läuft nie konstant. Im Laufe des Tages werden verschiedene “Aktivitäten” auf dem Tool ausgeführt. Diese Aktivitäten haben unterschiedliche Energieverbrauchsprofile. Um die Komplexität der internen Abläufe ein wenig zu vereinfachen, werden die verschiedenen Aktivitäten in Segmente unterteilt. Im Datensatz sind die folgenden Segmente vorhanden:

Airpump
AirVent
WaitingForSomethingToHappen
Summer
Winter
NothingToDoHere
PostSomething
BeforeSomething
HereWeDoTheMagic
TheWaitingGame
TheHappening
TheHappeningHappened

Jedes Segment repräsentiert eine Aktivität auf dem Tool, welches einem eigenen Energieprofil entspricht.

Leaderboard

Information zum Einreichen der Vorhersagen für die Berechnung der Genauigkeit und der Listung im Leaderboard folgen.

Anmeldung

Die Anmeldung erfolgt über ein einfaches Formular, welches hier verfügbar ist. Die Anmeldung ist ab sofort möglich. Die Daten werden jedoch erst ab 01.02.2021 zur Verfügung gestellt.

Durchführung / Ablauf

01.02.2021: Start der Data Science Challenge, Veröffentlichung Leaderboard und Testdaten

28.06.2021: Leaderboard Freeze

26.07.2021: Einreichung der Beschreibung der Ansätze (vier Seiten, auf Englisch) und des Codes der TOP 5 Teams

14.09.2021:
10:00: Begrüßung
10:00 - 11:00: Präsentationen der Teams
11:00-11:30: Vortrag Globalfoundries
11:30: Preisverleihung

Gewinner

1. Platz (750 €): Michael Dinzinger, Lukas Gräf, Sebastian Strasser und Johannes Schildgen von der OTH Regensburg

2. Platz (250 €): Jonathan Gerber von der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW)

Bei Fragen wenden Sie sich bitte an:

Peter Volk (Daten/Leaderboard)

Lucas Woltmann (Aufgabenstellung/Abgaben)

Preise

Preis-Pool: 1.000 €

Abgabe Ansatzbeschreibungen

Die Abgabe der Ansätze und damit die Qualifikation für eine Bewertung durch die Jury erfolgt über die Einreichung einer vierseitigen, englischen Beschreibung, die kurz Ihren geplanten Ansatz skizziert und die verwendeten Technologien aufgelistet. Geben Sie ggf. relevante eigene Vorarbeiten oder Erfahrung in dem Bereich an.

Die Beiträge müssen den Layoutvorgaben des Tagungsbandes (LNI-Stil) entsprechen.

Die Bewerbung erfolgt mittels ConfTool: https://www.conftool.com/btw2021/ (Data Science Challenge Track).

Die Teilnahme an der Data Science Challenge erfordert, dass mindestens eine Person pro Team für die BTW 2021 registriert ist, um die Ergebnisse vor Ort zu präsentieren.

Jury:

Die Jury einigt sich auf die jeweiligen Platzierungen. Bei der Entscheidung können auch Nicht-Jurymitglieder angehört werden, die jedoch kein Stimmrecht besitzen.

Prediction of energy data in the context of semiconductor production

The current energy policy and the related energy goals of Germany (reduction of CO2 emissions by 95% below 1990 levels by 2050) require large consumers to continuously optimize their energy consumption. With an energy consumption of about 1.5 TWh per year (mainly electricity and natural gas), semiconductor manufacturers are among the most energy-intensive companies.

In order to be able to have a positive influence on the power consumption, affected companies need knowledge about the influencing factors on the consumption, such as the influence of specific production parameters or components, for example, pumps of different efficiency classes. Additionally, knowledge about how much power is used is needed, by which consumers and in which areas.

Due to the complexity of the plant structure, a poor data situation regarding energy consumption, as well as constant changes in the process parameters of individual production plants, it is not possible to create a complete formal model. Nevertheless, simple models are already being created at the present state of the art, which predict the power consumption for the future from historical energy data. However, these models are limited in their accuracy and scalability regarding the amount of data as well as their explainability.

To make the modeling as accurate as possible, two components are necessary. On the one hand, the actual energy consumption and on the other hand, which workpieces (WIP=Work in Progress) were processed on a system. Like in a kitchen, semiconductor systems have different stations. There are ovens or induction stoves, which have a high energy consumption. But there are also robots (=cook) that simply move the material back and forth within the system or the kitchen. Such a robot does not consume as much energy as, for example, a plasma chamber (the oven) or a lithography process that uses a high-energy laser. The energy consumption for an oven or stove also depends on the recipe. A turkey, for example, which is in the oven for 9 hours at 120°C, consumes much more energy than fish sticks, which take only 12.5 minutes in the oven at 220°C. The same applies in a figurative sense to production plants that use different recipes for different products. The data set provided contains not only the times at the respective station but also recipe information describing a process on the system.

In semiconductor manufacturing, not all equipment (tools) have a power meter. To save costs, dedicated power meters are only installed at some plants. However, there is at least one tool with a dedicated measuring device per tool group. Each tool in a tool group behaves similarly concerning the recipe-dependent consumption.

Task

The specified training data set contains power consumption data of individual measuring devices for a system over one year as well as the corresponding WIP. The performance data are measured independently of the equipment and are available in a different temporal resolution. First, the performance data must be linked to the correct WIP. Based on the combined data, a model (or ensemble of models) is to be created which predicts the energy consumption data for all plants for the given WIP profiles.

The evaluation is done in two phases. In the first public phase, the evaluation takes place exclusively based on a leaderboard. Only the accuracy of the model is evaluated. Given a test data set the required energy should be predicted. The test dataset consists of WIP data which was collected after the training dataset. The test data set also includes individual tools that are of the same type as the tools in the training data set but are not in the training data set itself.

The TOP 5 teams at the time of the leaderboard freeze are evaluated by a jury of experts, based on a written elaboration, in the points of explainability and applicability of the model in practice.

1. Accuracy of the model (primary criterion)

1. What is the error of the model predicting the required power?

2. The Symmetric Mean Absolute Percentage Error (SMAPE) over the N tools with time horizon T of the test data is used for evaluation.

2. Explainability of the model

1. Can the model also be used to identify tools that have a significantly higher energy consumption than others?

2. Can the model be used to optimize the overall performance of the plant?

3. Applicability of the model in practice

1. How often must the model be retrained?

2. Amount of data required for the training

3. Availability of the used algorithms in R or Python

4. Run time of training

5. HW requirements of the model

List of columns and their explanation

All data has the following structure:

Lines end with “\n”
The decimal delimiter is “.” (POINT)
The field separator is “;”
Strings are NOT quoted
All timestamps are in the same time zone

1. Power consumption data

Column name, Unit / Datatype, Description

Tool , String, An unique identifier of the tool

measureTS, timestamp(6), The timestamp of the measurement

currentCharge, double (in kWH), The actual power consumption data

2. WIP-Data

Column name, Unit / Datatype, Description

tool, String, An unique identifier of the tool

entity, String, An unique identifier for the subcomponent of the tool

beginTS, timestamp(6), The start timestamp of the event

endTS, double (in kWH), The end timestamp of the event

duration, double [Days], Duration of the processing event measured in fraction of days

segment, String, Name of the event that happened on the subcomponent

rezept, String, Name of processes on a higher level

material, String, An identifier for the wafer

controljob, String, Logical group of processes with the same recipe

Prozess model

A tool never runs constantly. During the course of the day, various "activities" are performed on the tool. These activities have different energy consumption profiles. To simplify the complexity of the internal processes a bit, the different activities are divided into segments. The following segments are present in the dataset:

Airpump
AirVent
WaitingForSomethingToHappen
Summer
Winter
NothingToDoHere
PostSomething
BeforeSomething
HereWeDoTheMagic
TheWaitingGame
TheHappening
TheHappeningHappened

Each segment represents an activity on the tool, which corresponds to its own energy profile.

Leaderboard

See German part.

Registration

To register, please complete this form. Registration is open from now until the leaderboard freeze date. Early registration is possible but data will only be sent out after 01.02.2021.

Program

01.02.2021: Start of the Data Science Challenge: publication of the leaderboard and test data

28.06.2021: Leaderboard freeze

26.07.2021: Submission of the descriptions of the approaches (four pages, in English) and the code of the TOP 5 teams

14.09.2021:
10.00: Welcome
10.00 - 11.00: Presentation of Teams
11.00 - 11.30: Talk Globalfoundries
11.30: Awards

Winner

1. Place (750 €): Michael Dinzinger, Lukas Gräf, Sebastian Strasser und Johannes Schildgen von der OTH Regensburg

2. Place (250 €): Jonathan Gerber von der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW)

Please contact us if you have any questions:

Peter Volk (data/leaderboard)

Lucas Woltmann (task/submissions)

Prices

Price-Pool: 1000 Euro

Submission of approach descriptions

The description of the approaches and thus the qualification for an evaluation by the jury is done by submitting a four-page description in English that briefly outlines your planned approach and lists the technologies used. If applicable, indicate any relevant own preliminary work or experience in the field.

Entries must conform to the layout specifications of the conference proceedings (LNI style).

The submission is done via ConfTool: https://www.conftool.com/btw2021/ (Data Science Challenge Track).

Participation in the Data Science Challenge requires that at least one person per team is registered for the BTW 2021 to present the results on site.

Jury Zusammenstellung:

The jury agrees on the awarding of prizes. Non-jury members may also be heard, but they do not have the right to vote.

Data Science Challenge

Energiewende!

Aufgabenstellung

Liste der Spalten und deren Bedeutung

1. Leistungsdaten

2. WIP-Daten

Prozessmodell

Leaderboard

Anmeldung

Durchführung / Ablauf

Gewinner

Preise

Abgabe Ansatzbeschreibungen

Jury:

Prediction of energy data in the context of semiconductor production

Task

List of columns and their explanation

1. Power consumption data

2. WIP-Data

Prozess model

Leaderboard

Registration

Program

Winner

Prices

Submission of approach descriptions

Jury Zusammenstellung:

Unterstützer