Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR EVALUATING A TRAINED DEEP NEURAL NETWORK
Document Type and Number:
WIPO Patent Application WO/2024/037811
Kind Code:
A1
Abstract:
The present disclosure relates to a method for evaluating a deep neural network (10) which has been trained for object recognition in the surroundings of a motor vehicle. At least one reference variable is determined on the basis of a predetermined number of evaluation data sets and with the aid of the deep neural network (10). A number of test data sets are also provided and are used to generate a number of additional training data sets by means of a selected method for varying data sets. The deep neural network (10) is trained in an additional training step using the generated additional training data sets, wherein, after running through the additional training step, at least one assessment variable is determined on the basis of the predetermined number of evaluation data sets and with the aid of the deep neural network (10). The deep neural network (10) is assessed to be unsuitable for the selected method if a difference between the at least one reference variable and a corresponding assessment variable exceeds a predetermined limit value.

Inventors:
FEIFEL PATRICK (DE)
BONARENS FRANK (DE)
Application Number:
PCT/EP2023/069934
Publication Date:
February 22, 2024
Filing Date:
July 18, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
STELLANTIS AUTO SAS (FR)
International Classes:
G06N3/045; G06N3/084; G06N3/09
Foreign References:
US20220138511A12022-05-05
US20200134444A12020-04-30
DE102021207505A12023-01-19
Attorney, Agent or Firm:
SPITZFADEN, Ralf (DE)
Download PDF:
Claims:
Ansprüche

1. Verfahren zur Evaluierung eines tiefen neuronalen Netzes (10), das auf eine Objekterkennung im Umfeld eines Kraftfahrzeuges trainiert worden ist, wobei anhand einer vorbestimmten Anzahl von Evaluierungsdatensätzen und mit Hilfe des tiefen neuronalen Netzes (10) wenigstens eine Bezugsgröße ermittelt wird, und wobei eine Anzahl von Testdatensätzen bereitgestellt wird, aus denen mittels einer ausgewählten Methode zum Variieren von Datensätzen eine Anzahl von Zu- satztrainingsdatensäten erzeugt wird, wobei das tiefe neuronale Netz (10) in einem Zusatztrainingsschritt mit den erzeugten Zusatztrainingsdatensäten trainiert wird, wobei nach dem Durchlaufen des Zusatztrainingsschritt anhand der vorbestimmten Anzahl von Evaluierungsdatensätzen und mit Hilfe des tiefen neuronalen Netzes (10) wenigstens eine Bewertungsgröße ermittelt wird, und wobei das tiefe neuronalen Netz (10) für die ausgewählte Methode als nicht geeignet bewertet wird, wenn eine Differenz zwischen der wenigsten einen Bezugsgröße und einer korrespondierenden Bewertungsgröße einen vorbestimmten Grenzwert überschreitet.

2. Verfahren gemäß vorstehendem Anspruch 1 , wobei ursprünglich gelernte Parameter des tiefen neuronalen Netzes (10) ausgelesen abgespeichert werden, bevor ein erster Zusatztrainingsschritt durchgeführt wird.

3. Verfahren gemäß vorstehendem Anspruch 2, wobei alle Parameter des tiefen neuronalen Netzes (10) auf die abgespeicherten ursprünglich gelernten Parameter zurückgesetzt werden, nachdem die wenigstens eine Bewertungsgröße ermittelt worden ist.

4. Verfahren gemäß einem der vorstehenden Ansprüche 1 bis 3, wobei eine Anzahl unterschiedlicher Methoden zum Variieren von Datensätzen bereitgestellt wird, wobei für jeder der unterschiedlichen Methoden zum Variieren von Datensätzen jeweils eine Anzahl von Zusatztrainingsdatensätzen aus den Testdatensätzen erzeugt wird, so dass eine der Anzahl der Methoden entsprechende Anzahl aufeinanderfolgenden Zusatztrainingsschritte durchlaufen wird.

5. Verfahren gemäß einem der vorstehendem Ansprüche 1 bis 4, wobei für jeden Evaluierungsdatensatz durch das tiefe neuronale Netz (10) ein korrespondierender latenter Repräsentationsdatensatz (Z) erzeugt wird, wobei zu annotierten Daten (2) jedes Evaluierungsdatensatzes relevante latente Repräsentationen (Zjj) aus dem korrespondierenden latenten Repräsentationsdatensatz (Z) ausgewählt werden, wobei aus den ausgewählten relevanten latenten Repräsentationen der Evaluierungsdatensätze ein Abstandsmittelwert im latenten Raum ermittelt wird, und wobei der ermittelte Abstandsmittelwert als Referenzgröße und/oder als Bewertungsgröße herangezogen wird.

6. Verfahren gemäß einem der vorstehenden Ansprüche 1 bis 5, wobei für jeden Evaluierungsdatensatz durch das tiefe neuronale Netz (10) Ausgabedaten (3) erzeugt werden, wobei mittels eines Abgleichs zwischen den erzeugten Ausgabedaten (3) und den Referenzdaten (2) des jeweiligen Evaluierungsdatensatzes eine Performanz bestimmt wird, wobei die Performanz als Referenzgröße und/oder als Bewertungsgröße herangezogen wird.

7. Verfahren gemäß einem der vorstehenden Ansprüche, wobei die Methode zum Variieren von Datensätzen ein parametrisiertes Verändern aller Daten eines Datensatzes umfasst.

8. Verfahren gemäß einem der vorstehenden Ansprüche, wobei die Methode zum Variieren von Datensätzen ein Hinzufügen von Objekten in einen jeweiligen Datensatz umfasst.

9. Computerprogramm, das, wenn es auf einer Recheneinheit ausgeführt wird, die jeweilige Recheneinheit anleitet, ein Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.

10. Computerprogrammprodukt mit einem Programmcode, der auf einem von einem Computer lesbaren Medium gespeichert ist zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 9.

Description:
Beschreibung

VERFAHREN ZUM EVALUIEREN EINES TRAINIERTEN TIEFEN NEURONALEN

NETZES

Technisches Gebiet

Die Erfindung betrifft ein Verfahren zum Evaluieren eines trainierten tiefen neuronalen Netzes. Die Erfindung betrifft ferner Computerprogramm und Computerprogrammprodukt zum Ausführen des Verfahrens.

Stand der Technik

Die Perzeption bzw. Modellierung eines Fahrzeugumfeldes stellt eine wesentliche Herausforderung bei einer Entwicklung von automatisierten Fahrfunktionen bzw. fortgeschrittenen Fahrerassistenzsystemen (engl. advanced driver assistance systems, ADAS) dar. Für eine Objekterkennung (engl. object detection), d.h. eine Klassifizierung (engl. classification) und Lokalisierung (engl. localisation) von sensorisch erfassten Objekten spielen tiefe neuronale Netze (engl. deep neural network, DNN) aufgrund ihrer hervorragenden Performanz eine entscheidende Rolle.

Durch einen Trainingsalgorithmus und mit einer Anzahl von Trainingsiterationsschritten wird in den inneren Strukturen eines tiefen neuronalen Netzes ein Merkmalsraum gelernt, durch den die zu erkennenden Objekte repräsentiert werden können. Durch eine Erweiterung eines entsprechenden Trainingsdatensatzes kann die Performanz eines DNN im Allgemeinen verbessert werden. Nach einem erfolgreichen Basistraining können Trainingsdatensätze bereitgestellt werden, deren Objekte für das DNN schwer zu erfassen sind, wobei dennoch eine korrekte Detektion anforderungsbedingt erwartet werden muss. Derartige Trainingsdatensätze können Bilder mit seltenen Situationen (eng. corner cases) oder Bilder mit einer begrenzten Bildqualität (z.B. hinsichtlich des Kontrastes, der Helligkeit, etc.) enthalten.

Die Performanz sagt als Kriterium nichts darüber aus, wie eine DNN seinen Merkmalsraum anhand von vorgegenebnen Trainingsdaten in einer endlichen Anzahl von Trainingsiterationen lernt. Die inneren Strukturen eines DNN, die auch als verborgene oder latente Strukturen bezeichnet werden können, sind von außen betrachtet im Wesentlichen nicht nachvollziehbar. Somit ist während bzw. nach einem Training von außen auch nicht klar, ob sich gelernte Repräsentationen in einem Bereich des Merkmalsraumes stabilisieren oder ob von Trainingsschritt zu Trainingsschritt vollkommen unterschiedliche Bereiche zur Repräsentation des Gelernten genutzt werden.

Neben der Performanz stellt also auch die Robustheit ein besonders wichtiges Kriterium zur Beurteilung eines ausreichenden Trainings dar. Das Ziel eines Trainings ist gerade nicht, einem DNN so viele Datensätze zuzuführen, dass es jede relevante Situation einmal im Training berücksichtigt worden ist („Training durch Auswendiglernen aller Situationen“), da ein solches Vorgehen das Risiko eines Over Fittings birgt. Stattdessen soll das DNN durch das Training die Fähigkeit zur Generalisierung bei der Objekterkennung erlangen, die durch eine ausreichende Robustheit beurteilt werden kann.

In der deutschen Patentanmeldung 10 2021 207 505.3 wurde ein Verfahren zum Trainieren eines tiefen neuronalen Netzes zur Objekterkennung im Umfeld eines Kraftfahrzeuges vorgestellt, das eine Evaluierung eines aktuellen Lernzustandes eines Trainings ermöglicht.

Eine nachträgliche Evaluierung eines bereits trainierten tiefen neuronalen Netzes ist mit dem beschriebenen Verfahren jedoch nicht möglich.

Kurzbeschreibung der Erfindung

Vor diesem Hintergrund liegt der Erfindung die Aufgabe zugrunde, ein Verfahren zur Evaluierung eines tiefen neuronalen Netzes bereitzustellen, dessen Training auf eine Objekterkennung im Umfeld eines Kraftfahrzeuges bereits abgeschlossen worden ist.

Vorgeschlagen wird dementsprechend ein Verfahren gemäß dem Hauptanspruch sowie Computerprogramm und ein Computerprogrammprodukt gemäß den Nebenansprüchen. Weiterführende Ausgestaltungen sind Gegenstand der jeweils abhängigen Ansprüche.

Gemäß einem ersten Aspekt der Erfindung wird die Aufgabe gelöst durch ein Verfahren zur Evaluierung eines tiefen neuronalen Netzes, das auf eine Objekterkennung im Umfeld eines Kraftfahrzeuges trainiert worden ist. Anhand einer vorbestimmten Anzahl von Evaluierungsdatensätzen und mit Hilfe des tiefen neuronalen Netzes wird wenigstens eine Bezugsgröße ermittelt. Ferner wird eine Anzahl von Testdatensätzen bereitgestellt, aus denen mittels einer ausgewählten Methode zum Variieren von Datensätzen eine Anzahl von Zusatztrainingsdatensätzen erzeugt werden. Das tiefe neuronale Netz wird in einem Zusatztrainingsschritt mit den erzeugten Zusatztrainingsdatensätzen trainiert, wobei nach dem Durchlaufen des Zusatztrainingsschrittes anhand der vorbestimmten Anzahl von Evaluierungsdatensätzen und mit Hilfe des tiefen neuronalen Netzes wenigstens eine Bewertungsgröße ermittelt wird. Das tiefe neuronale Netz wird für die ausgewählte Methode als nicht geeignet bewertet, wenn eine Differenz zwischen der wenigsten einen Bezugsgröße und einer korrespondierenden Bewertungsgröße einen vorbestimmten Grenzwert überschreitet.

Entsprechend kann das tiefe neuronale Netz für die ausgewählte Methode als geeignet bewertet werden, wenn die Differenz zwischen der wenigsten einen Bezugsgröße und einer korrespondierenden Bewertungsgröße den vorbestimmten Grenzwert einhält.

Eine Idee hinter der vorliegenden Erfindung ist, zusätzliche Zusatztrainingsschritte nicht für ein erweitertes Trainieren eines tiefen neuronalen Netzes zu verwenden, sondern zur Evaluierung eines bereits trainierten tiefen neuronalen Netzes zu nutzen.

Gemäß einer Weiterbildung des Verfahrens kann daher vorgesehen werden, dass ursprünglich gelernte Parameter des trainierten tiefen neuronalen Netzes zunächst ausgelesen und abgespeichert werden, bevor ein erster Zusatztrainingsschritt durchgeführt wird.

Dadurch, dass der Trainingszustand des tiefen neuronalen Netzes eingefroren wird, können die gelernten Parameter des tiefen neuronalen Netzes nach einer Evaluierung auf den ursprünglich Lernzustand zurückgesetzt werden. Die gespeicherten Parameter können beispielsweise Gewichtungsparameter und Prototypen oder Konzepte von Merkmalsextrationsebenen und Perzeptionsebenen für die inneren Strukturen eines tiefen neuronalen Netzes umfassen.

Gemäß einer Weiterbildung des Verfahrens können alle Parameter des tiefen neuronalen Netzes auf die abgespeicherten ursprünglich gelernten Parameter zurückgesetzt werden, nachdem die wenigstens eine Bewertungsgröße ermittelt worden ist.

Da die Zusatztrainingsschritte kein zusätzliches Training bewirken sollen, um beispielsweise das Risiko eines Over Fitting zu vermeiden, wird der ursprüngliche ausgelesene und abgespeicherte Trainingsstand wieder zurückgesetzt, sobald das tiefe neuronalen Netz für die ausgewählte Methode als geeignet bewertet wurde. Das durchgeführte Zusatztraining hat somit nur eine Auswirkung auf einen Evaluierungsschritt, das auf der ausgewählten Methode zum Variieren von Datensätzen basiert. Ein Zusatztrainingsschritt hat somit keinen Einfluss auf einen Praxisbetrieb eines evaluierten tiefen neuronalen Netzes.

Gemäß einer Weiterbildung des Verfahrens kann eine Anzahl unterschiedlicher Methoden zum Variieren von Datensätzen bereitgestellt wird, wobei für jeder der unterschiedlichen Methoden zum Variieren von Datensätzen jeweils eine Anzahl von Zusatztrainingsdatensätzen bereitgestellt wird, so dass eine der Anzahl der Methoden entsprechende Anzahl aufeinanderfolgender Zusatztrainingsschritte durchlaufen wird. Somit kann das tiefe neuronale Netz nacheinander basierend auf unterschiedlichen kritischen Grenzfällen bewertet werden.

In diesem Zusammenhang können Parameter des tiefen neuronalen Netzes nach jedem Zusatztrainingsschritt auf die abgespeicherten ursprünglich gelernten Parameter zurückgesetzt werden, sobald die entsprechenden Bewertungsgrößen ermittelt worden sind.

Somit kann jedes Zusatztraining für eine jeweilige Methode zum Variieren von Datensätzen auf dem jeweils gleichen ursprünglichen Trainingsstand des tiefen neuronalen Netzes beginnen. Ein vorhergehender Zusatztrainingsschritt hat somit keinen Einfluss auf die Bewertung einer aktuell ausgewählten Methode.

Gemäß einer Weiterbildung kann für jeden Evaluierungsdatensatz durch das tiefe neuronale Netz jeweils ein korrespondierender latenter Repräsentationsdatensatz erzeugt werden, wobei zu annotierten Daten jedes Evaluierungsdatensatzes relevante latente Repräsentationen aus dem korrespondierenden latenten Repräsentationsdatensatz ausgewählt werden. Aus den ausgewählten relevanten latenten Repräsentationen der Evaluierungsdatensätze kann ein Abstandsmittelwert im latenten Raum ermittelt werden, wobei der ermittelte Abstandsmittelwert als Referenzgröße und/oder als Bewertungsgröße herangezogen wird.

Alternativ oder ergänzend können für jeden Evaluierungsdatensatz durch das tiefe neuronale Netz Ausgabedaten erzeugt werden, wobei mittels eines Abgleichs zwischen den erzeugten Ausgabedaten und den Referenzdaten des jeweiligen Evaluierungsdatensatzes eine Performanzwert bestimmt wird, wobei der Performanzwert als Referenzgröße und/oder als Bewertungsgröße herangezogen wird.

Gemäß einer Weiterbildung kann die Methode zum Variieren von Datensäten ein parametrisiertes Verändern aller Daten eines Datensatzes umfassen.

Alternativ oder ergänzend kann die Methode zum Variieren von Datensätzen ein Hinzufügen von Objekten in einen jeweiligen Datensatz umfassen.

Nach einem weiteren Aspekt der Erfindung wird die Aufgabe gelöst durch ein Computerprogramm, das, wenn es auf einer Recheneinheit innerhalb einer Manöverplanungseinrichtung ausgeführt wird, die jeweilige Recheneinheit anleitet, das Verfahren auszuführen.

Nach einem weiteren Aspekt der Erfindung wird die Aufgabe gelöst durch ein Computerprogrammprodukt mit einem Programmcode zur Durchführung des Verfahrens, der auf einem von einem Computer lesbaren Medium gespeichert ist. Kurze Beschreibung der Zeichnunqsfiquren

Weitere Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbeispiel im Einzelnen beschrieben ist. Beschriebene und/oder bildlich dargestellte Merkmale bilden für sich oder in beliebiger, sinnvoller Kombination den Gegenstand, gegebenenfalls auch unabhängig von den Ansprüchen, und können insbesondere zusätzlich auch Gegenstand einer oder mehrerer separater Anmeldungen sein. Gleiche, ähnliche und/oder funktionsgleiche Teile sind mit gleichen Bezugszeichen versehen. Dabei zeigen:

Figur 1 zeigt ein Blockdiagramm eines tiefen neuronalen Netzes;

Figur 2 zeigt eine Bildeingangsdatensatz mit einem annotierten Begrenzungsrahmen und einem latenten Repräsentationsdatensatz Z;

Figur 3 zeigt ein Ablaufdiagramm eines erfindungsgemäßen Evaluierungsverfahrens.

Beschreibung der Ausführunqsarten

In der Figur 1 ist ein Blockdiagramm eines tiefen neuronalen Netz 10 (DNN) dargestellt, das auf eine Erkennung von Objekten, beispielsweise auf Fußgänger, in kamerabasierten 2D-Bilddaten aus einem Fahrzeugumfeld trainiert worden ist. Das DNN 10 besitzt eine Anzahl von Merkmalsextrationsebenen 11 und eine Anzahl von Perzeptionsebenen 12. Die Merkmalsextrationsebenen 11 sind ausgebildet, für einen aktuellen Bildeingangsdatensatz 1 jeweils einen latenten Repräsentationsdatensatz Z zu erzeugen und an die Perzeptionsebenen 12 weiterzugeben. Die Perzeptionsebenen 12 sind ausgebildet, latente Repräsentationen aus einem aktuellen latenten Repräsentationsdatensatz Z mit einer Anzahl von gelernten Prototypen für verschiedene Klassen von Objekten auf Ähnlichkeit hin zu vergleichen, so dass darauf basierend Objekte in den 2D-Bilddaten erkannt, d.h. klassifiziert und lokalisiert werden können.

Der in der Figur 2 dargestellte Bildeingangsdatensatz 1 enthält bzw. beschreibt ein 2D- Bild einer Fahrzeugumgebung, das beispielsweise mit einer Fahrzeugfrontkamera aufgenommen worden sein kann. Der Bildeingangsdatensatz 1 besitzt eine Anzahl Bildpunkte (engl. pixel), die entsprechend der Höhe (engl. height) H und einer Breite (engl. width) W des Bildes in Zeilen und Spalten zueinander angeordnet sind. Jeder Bildpunkt des Bildeingangsdatensatzes 1 wird zum Beispiel durch einen Vektor im dreidimensionalen RBG- Farbraum beschrieben. Das DNN 10 kann zum Beispiel als ein faltendes neuronales Netzwerk (engl. convolutional neural network, CNN) ausgebildet sein, dessen Architektur in den Merkmalsextrationsebenen 11 spezielle Faltungs- und Bündelungsstrukturen vorsieht.

Mit den Merkmalsextrationsebenen 11 wird für jeden aktuellen Bildeingangsdatensatz 1 ein latenter Repräsentationsdatensatz Z erzeugt, wobei hinsichtlich der Anzahl von Daten eine Datenreduktion erzielt wird. So wird beispielsweise aus einem 2048 x 1024 Bildpunkte großen Bildeingangsdatensatz 1 ein latenter Repräsentationsdatensatz Z mit 512 x 256 latenten Repräsentationen Zjj erzeugt.

Während jeder Bildpunkt durch einen Vektor mit drei Farbwerten im RGB-Farbraum definiert wird, enthält eine jeweilige latente Repräsentation einen Vektor mit Merkmalen in einem n-dimensionalen latenten Raum. Jede latente Repräsentation kodiert in den n Merkmalen (z.B. 256 Merkmale) semantische Beziehungen zwischen Bildeingangsdaten eines rezeptiven Feldes (engl. receptive field), das in die jeweilige latente Repräsentation eingeflossen ist.

Wie ein jeweiliger Bildeingangsdatensatz 1 auf den latenten Repräsentationsdatensatz Z abgebildet wird, bestimmt sich einerseits durch die Netzarchitektur der Merkmalsextrationsebenen 11 des DNN 10, andererseits durch eine Anzahl zugehöriger Gewichtungsparameter, die mittels maschinellen Lernens anhand von Trainingsdaten gelernt worden sind.

Die Perzeptionsebenen 12 des DNN 10 besitzen eine Anzahl Prototypen, die durch einen Vektor in demselben latenten Raum darstellbar sind, wie die latenten Repräsentationen des latenten Repräsentationsdatensatzes Z. Insofern können alle latenten Repräsentationen jeweils mit einer Anzahl von Prototypen verglichen werden, die ebenfalls mittels maschinellen Lernens anhand der Trainingsdaten gelernt worden sind. Aus dem Vergleich werden durch das DNN 10 Ausgabedatensätze 3 gewonnen, die Klassen und Positionen von Objekten enthalten, die durch die Perzeptionsebenen 12 in dem latenten Repräsentationsdatensatzes Z erkannt worden sind.

Die inneren Strukturen des DNN 10, die auch als verborgene oder latente Strukturen bezeichnet werden können, sind von außen betrachtet grundsätzlich nicht nachvollziehbar. Die latenten Repräsentationen Zjj können jedoch einer örtlich entsprechenden Gruppe von Bildpunkten des Bildeingangsdatensatz 1 zugeordnet werden.

Zu Trainings- bzw. Evaluierungszwecken wird das DNN 10 mit einem Trainingsalgorithmus 20 verbunden. Mit dem Trainingsalgorithmus 20 können die Gewichtungsparameter und Prototypen mit einer Folge von Trainingsiterationsschritten und durch Minimieren einer internen Kostenfunktion schrittweise optimiert werden. Für jeden Trainingsiterationsschritt wird jeweils ein Trainingsdatensatz bereitgestellt, der einen Bildeingangsdatensatz 1 und einen zugehörigen Referenzdatendatensatz 2 umfasst. Mit jedem Bildeingangsdatensatz 1 wird ein Referenzdatensatz 2 bereitgestellt, der in der Figur 2 als ein annotierter Begrenzungsrahmen (engl. annotated bounding box) dargestellt ist, werden dem Trainingsalgorithmus 20 Klassen und Positionen von zu erkennenden Objekten vorgegeben, die in einem Bild des entsprechenden Bildeingangsdatensatzes 1 vorhanden sind und die von dem DNN 10 erkannt werden sollen. Von dem DNN 10 wird dem Trainingsalgorithmus 20 ferner ein Ausgabedatensatz 3 zugeführt, der Klassen und Positionen von Objekten enthält, die durch die Perzeptionsebenen 12 aus dem latenten Repräsentationsdatensatzes Z erkannt worden sind. Die Gewichtungsparameter und Prototypen des DNN 10 werden durch den Trainingsalgorithmus 10 in jedem Trainingsiterationsschritt derart angepasst, dass die Klassen und Positionen von Objekten des Ausgabedatensatzes 3 mit denen des Referenzdatensatzes 2 möglichst gut übereinstimmen.

In der Figur 3 ist ein Ablauf eines erfindungsgemäßen Evaluierungsverfahrens 100 dargestellt, mit dem ein trainiertes tiefes neuronale Netz bezüglich seiner Robustheit und/oder Performanz evaluiert werden kann.

In einem ersten Schritt 101 wird ein DNN 10 und einen zugehöriger Trainingsalgorithmus 20 bereitgestellt, die, als fertigt trainierte Hard- und/oder Softwarekomponente beispielsweise von einem Zulieferer zugeliefert worden sein kann. Die bereits gelernten Gewichtungsparameter und Prototypen der Merkmalsextrationsebenen 11 bzw. der Perzeptionsebenen 12 werden eingefroren und als Datensatz abgespeichert.

In einem zweiten Schritt 102 wird eine vorbestimmte Anzahl Evaluierungsdatensätze bereitgestellt, wobei jeder Evaluierungsdatensatz jeweils einen Bildeingangsdatensatz 1 und einen zugehörigen Referenzdatensatz 2 umfasst. Die Evaluierungsdatensätze werden in einer definierten Reihenfolge dem DNN 10 und dem zugehörigen Trainingsalgorithmus 20 zugeführt. Zu jedem Evaluierungsdatensatz erzeugt das DNN 10 einen latenten Repräsentationsdatensatz Z sowie einen Ausgabedatensatz 3 mit Daten über Klassen und Positionen von erkannten Objekten.

Die Daten des Referenzdatensatzes 2 werden mit denen des Ausgabedatensatzes 3 verglichen. Basierend auf einer Anzahl von Objekten, die von dem DNN 10 gegenüber den Referenzdaten nicht bzw. falsch-positiv erkannt wurden, wird eine Fehlerrate F ermittelt und zugehörig zu jedem Evaluierungsdatensatz abgespeichert. Für die Anzahl aller Evaluierungsdatensätze wird eine gemittelte und/oder maximale Fehlerrate als ein Bezugswert für die Performanz des DNN 10 bestimmt und abgespeichert.

Ferner werden basierend auf dem Referenzdatensatzes 2 alle latenten Repräsentationen Zjj ermittelt und abgespeichert, die mit den Positionen der annotierten Begrenzungsrahmen übereinstimmen. Aus den gespeicherten latenten Repräsentationen Zjj aller Evaluierungsdatensätze wird ein Abstandsmittelwert berechnet, der als Bezugswert für die Robustheit des DNN 10 abgespeichert wird.

In einem dritten Schritt 103 wird eine Anzahl von Testdatensätzen und eine Anzahl von Methoden zum Variieren von Datensätzen bereitgestellt. Für jede Methode zum Variieren von Datensäten wird eine Anzahl von Zusatztrainingsdatensäten erzeugt.

Die Testdatensätze enthalten jeweils einen Bildeingangsdatensatz 1 und einen zugehörigen Referenzdatendatensatz 2, mit den Klassen und Positionen der zu erkennenden Objekte, die wie üblich annotiert bzw. vorgegeben werden.

Methoden zum Variieren von Datensätzen können globale Veränderungen des Bildes wie Kontrast- oder Helligkeitsänderungen sein. Aber auch Ergänzungen um zusätzliche Objekte im Bild (z.B. Personen, Fußgänger, usw.) sind möglich. Ferner kann ein Bild mit einem Schneefall, Regen oder ein anderem Bildrauschen überlagert werden.

Wird beispielsweise die Methode der Kontraständerungen ausgewählt, wird basierend auf jedem Testdatensatz ein Zusatztrainingsdatensatz erzeugt, dessen Bildpunkte im Bildeingangsdatensatz 1 hinsichtlich der Kontrastwerte um einen vorgegebenen Wert manipuliert bzw. angepasst worden sind.

In einem vierten Schritt 104 wird das DNN 10 in einen Trainingsmodus versetzt und mit einer Anzahl von Zusatztrainingsdatensätzen in einem Zusatztraining trainiert, die für eine erste ausgewählte Methode zum Variieren von Datensätzen erzeugt worden sind. Wurde ein entsprechender Zusatztrainingsschritt mit der Anzahl von Zusatztrainingsdatensätzen durchlaufen, wird der Trainingsmodus des DNN 10 wieder beendet.

In einem fünften Schritt 105 werden die Evaluierungsdatensätze in der definierten Reihenfolge dem DNN 10 und dem zugehörigen Trainingsalgorithmus 20 zugeführt. Zu jedem Evaluierungsdatensatz erzeugt das DNN 10 erneut einen latenten Repräsentationsdatensatz Z sowie einen Ausgabedatensatz 3 mit Daten über Klassen und Positionen von erkannten Objekten.

In einem sechsten Schritt 106 werden für jeden Evaluierungsdatensatz basierend auf dem Referenzdatensatzes 2 alle latenten Repräsentationen Zjj ermittelt, die mit den Positionen der annotierten Begrenzungsrahmen übereinstimmen. Aus den ermittelten latenten Repräsentationen Zjj aller Evaluierungsdatensätze wird erneut ein Abstandsmittelwert ermittelt, der als Bewertungsgröße für die Robustheit des DNN 10 abgespeichert wird.

Aus der ermittelten Bewertungsgröße für die Robustheit und aus dem im zweiten Schritt 102 abgespeicherten Bezugswert für die Robustheit des DNN 10 wird eine Differenz gebildet und mit einem Grenzwert für eine Robustheitsänderung verglichen. Wird der Grenzwert nicht eingehalten, d.h. wenn sich die Robustheit über ein bestimmtes Maß nach dem Zusatztraining verschlechtert hat, wird die das tiefe neuronalen Netz 10 für die ausgewählte Methode als nicht geeignet bewertet. Das Verfahren zur Evaluierung des DNN 10 kann mit Schritt 110 beendet werden.

Sofern der Grenzwert für die Robustheitsänderung eingehalten worden ist, wird in einem siebten Schritt 107 für jeden Evaluierungsdatensatz erneut eine Fehlerrate F ermittelt und abgespeichert, indem die Referenzdatensätze 2 mit den Ausgabedatensätzen 3 verglichen werden. Wie zuvor in dem zweiten Schritt 102 beschrieben, ergibt sich die Fehlerrate F aus einer Anzahl von Objekten, die von dem DNN 10 gegenüber den Referenzdaten nicht bzw. falsch-positiv erkannt wurden. Entsprechend wird für die Anzahl aller Evaluierungsdatensätze erneut eine gemittelte und/oder maximale Fehlerrate ermittelt und abgespeichert, die als eine Bewertungsgröße für die Performanz des DNN 10 dient.

Aus der ermittelten Bewertungsgröße für die Performanz und dem im zweiten Schritt 102 abgespeicherten Bezugswert für die Performanz des DNN 10 wird in dem siebten Schritt 107 ferner eine Differenz ermittelt und mit einem vorgegebenen Grenzwert für eine Performanzänderung verglichen. Wird der Grenzwert nicht eingehalten, d.h. wenn sich die Performanz über ein bestimmtes Maß nach dem Zusatztraining verschlechtert hat, wird die das tiefe neuronalen Netz 10 für die ausgewählte Methode als nicht geeignet bewertet. Das Verfahren zur Evaluierung des DNN 10 kann entsprechend beendet 110 werden.

Sofern der Grenzwert für die Performanzänderung eingehalten worden ist, wird das DNN 10 für die ausgewählte Methode als geeignet bewertet. In einem nachfolgenden achten Schritt 108 kann das DNN 10 zurückgesetzt werden, indem die als Datensatz gespeicherten ursprünglich gelernten Gewichtungsparameter und Prototypen der Merkmalsextrationsebenen 11 bzw. der Perzeptionsebenen 12 zurückgespielt werden. Wird in dem achten Schritt 108 ferner festgestellt, dass noch weitere, d.h. für ein Zusatztraining noch nicht verwendete Methode zum Variieren von Datensäten zur Verfügung steht, wird in dem vierten Schritt 104 das DNN 10 erneut in einen Trainingsmodus versetzt und mit einer Anzahl von Zusatztrainingsdatensäten in einem Zusatztraining trainiert, die für eine weitere ausgewählte Methode zum Variieren von Datensätzen erzeugt wurden.

Wird in dem achten Schritt 108 festgestellt, dass sämtliche Zusatztrainingsdatensätze für alle Methoden zum Variieren von Datensätzen verwendet worden sind, wird das DNN 10 für alle verwendeten Methoden als geeignet bewertet. Das Verfahren wird mit einer positiven Evaluierung des DNN 10 in Schritt 109 beendet.

Wird in dem sechsten Schritt 106 und/oder siebten Schritt 107 das tiefe neuronalen Netz 10 für eine ausgewählte Methode als nicht geeignet bewertet, kann alternativ zu einer Beendigung 110 des Verfahrens vorgesehen werden, weitere Zusatztrainings für die noch nicht verwendete Methoden zum Variieren von Datensätzen durchzuführen, um eine komplette Liste drüber zu erhalten, für welcher Methoden das tiefe neuronale Netz geeignet ist und für welche nicht.

Obwohl der Gegenstand im Detail durch Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehenden Erläuterungen in der Beschreibung, definiert wird. Liste der Bezugszeichen

1 Bildeingangsdatensatz

2 Referenzdatensatz

3 Ausgabedatensatz

10 tiefes neuronales Netz (DNN)

11 Merkmalsextrationsebenen

12 Perzeptionsebenen

20 T rainingsalgorithmus

F Fehlerrate

Z latenter Repräsentationsdatensatz

Zi,j latente Repräsentation

100 Evaluierungsverfahren

101 erster Schritt

102 zweiter Schritt

103 dritter Schritt

104 vierter Schritt

105 fünfter Schritt

106 sechster Schritt

107 siebter Schritt

108 achter Schritt

109 Ende; für alle verwendeten Methoden als geeignet bewertet

110 Ende; für eine ausgewählte Methode als nicht geeignet bewertet