Ein Körper für den smarten Geist Umfrage: Was ist die beste Hardware für KI?

Wir haben verschiedenen Unternehmen die Frage gestellt, welcher Körper am besten zum smarten Geist passt.

Bild: iStock, Archy13
05.03.2019

Künstliche Intelligenz benötigt große Rechenleistung. Prinzipiell lässt sich diese mit CPUs, GPUs, DSPs und anderen Beschleunigern erreichen. Nur mit Leistung ist es aber oft nicht getan. Es kommt auch auf die Art der Verarbeitung an.

Wir haben deshalb Industrievertreter gefragt, welche Hardware sie für Künstliche Intelligenz empfehlen:

Bildergalerie

  • Für KI-Inferenzierung stehen verschiedene Optionen zur Verfügung. Universalprozessoren wie CPUs und GPUs haben Schwierigkeiten in Bezug auf Leistung und Energieeffizienz. Für Produkte, die höhere Leistung erfordern und Auflagen hinsichtlich der Temperatur haben oder batteriebetrieben sind, ist eine energieeffiziente Prozessortechnologie ein Muss.

Hardwarebeschleuniger mit fester Funktion sind für ausgereifte Algorithmen wie die Videocodierung geeignet. Sie reichen jedoch nicht für KI-Inferenzierung aus, da sich Deep Learning mit neuen Netzwerken und Ebenen ständig weiterentwickelt. Ein programmierbarer DSP bietet die nötige Flexibilität, die Anwendung über die Lebensdauer des Produkts hinweg weiterzuentwickeln. Der KI-Prozessor Tensilica DNA 100 ist in der Lage, Hardware für die Beschleunigung neuronaler Netzwerke mit einem Tensilica DSP zu koppeln, um kundenspezifische, neuronale Netzwerkschichten zu unterstützen.

Lazaar Louis, Senior Director Product Management bei Cadence

    Für KI-Inferenzierung stehen verschiedene Optionen zur Verfügung. Universalprozessoren wie CPUs und GPUs haben Schwierigkeiten in Bezug auf Leistung und Energieeffizienz. Für Produkte, die höhere Leistung erfordern und Auflagen hinsichtlich der Temperatur haben oder batteriebetrieben sind, ist eine energieeffiziente Prozessortechnologie ein Muss.

    Hardwarebeschleuniger mit fester Funktion sind für ausgereifte Algorithmen wie die Videocodierung geeignet. Sie reichen jedoch nicht für KI-Inferenzierung aus, da sich Deep Learning mit neuen Netzwerken und Ebenen ständig weiterentwickelt. Ein programmierbarer DSP bietet die nötige Flexibilität, die Anwendung über die Lebensdauer des Produkts hinweg weiterzuentwickeln. Der KI-Prozessor Tensilica DNA 100 ist in der Lage, Hardware für die Beschleunigung neuronaler Netzwerke mit einem Tensilica DSP zu koppeln, um kundenspezifische, neuronale Netzwerkschichten zu unterstützen.

    Lazaar Louis, Senior Director Product Management bei Cadence

    Bild: Cadence

  • Das Training komplexer Modelle basierend auf Machine Learning ist ein sehr ressourcenintensiver Prozess. Die benötigte Hardware ist kostspielig und wird in den seltensten Fällen 24/7 ausgelastet. Cloud-Lösungen erlauben eine flexible, auf die Bedürfnisse der Unternehmen ausgerichtete Anmietung entsprechender Hochleistungshardware.

Die Tensor Processing Units (TPUs) stellen in diesem Zusammenhang den entscheidenden Schritt dar, um den exponentiell wachsenden Anforderungen maschinellen Lernens gerecht zu werden. Die Entwicklung von TPUs berücksichtigt vor allem sehr hohe Performanz in Zusammenhang mit dem häufig genutzten Open-Source-ML/KI-Framework TensorFlow. TPUs zeichnen sich durch ein bis zu 30-fach schnelleres Training von ML-Modellen im Vergleich zu Prozessoren mit äquivalenter Rechenleistung aus. Auf die Leistung pro Watt gerechnet, beläuft sich der Leistungsvorsprung sogar auf das bis zu 80-fache.

Alexander Krock, Head of Google Cloud Customer Engineering DACH

    Das Training komplexer Modelle basierend auf Machine Learning ist ein sehr ressourcenintensiver Prozess. Die benötigte Hardware ist kostspielig und wird in den seltensten Fällen 24/7 ausgelastet. Cloud-Lösungen erlauben eine flexible, auf die Bedürfnisse der Unternehmen ausgerichtete Anmietung entsprechender Hochleistungshardware.

    Die Tensor Processing Units (TPUs) stellen in diesem Zusammenhang den entscheidenden Schritt dar, um den exponentiell wachsenden Anforderungen maschinellen Lernens gerecht zu werden. Die Entwicklung von TPUs berücksichtigt vor allem sehr hohe Performanz in Zusammenhang mit dem häufig genutzten Open-Source-ML/KI-Framework TensorFlow. TPUs zeichnen sich durch ein bis zu 30-fach schnelleres Training von ML-Modellen im Vergleich zu Prozessoren mit äquivalenter Rechenleistung aus. Auf die Leistung pro Watt gerechnet, beläuft sich der Leistungsvorsprung sogar auf das bis zu 80-fache.

    Alexander Krock, Head of Google Cloud Customer Engineering DACH

    Bild: Google

  • Grafikprozessoren (GPUs) sind aufgrund ihrer hohe Rechenleistung sehr effektiv für KI. Sie wurden ursprünglich entwickelt, um 3D-Grafiken, etwa in Videospielen, zu verarbeiten. Aufgrund ihrer Fähigkeit, Aufgaben mit Parallel Computing zu parallelisieren, eignen sie sich aber auch besonders für den Einsatz bei Deep Learning. GPUs können Deep-Learning um das zehn- bis 20-fache beschleunigen und dadurch den Zeitaufwand für das Trainieren von neuronalen Netzen von Wochen auf Tage oder Stunden reduzieren.

Die fortschrittlichste Architektur dafür ist Volta. Sie verbindet CUDA-Kerne und Tensor Cores in einer Rechenarchitektur. Damit bietet sie die Leistung eines KI-Supercomputers in einer einzigen GPU. Unser System Nvidia Jetson AGX Xavier basiert auf dieser Architektur. Neuartige Geräte benötigen diese enorme Rechenleistung für die Echtzeitverarbeitung komplexer Informationen.

Eddie Seymour, Director Embedded Business bei Nvidia

    Grafikprozessoren (GPUs) sind aufgrund ihrer hohe Rechenleistung sehr effektiv für KI. Sie wurden ursprünglich entwickelt, um 3D-Grafiken, etwa in Videospielen, zu verarbeiten. Aufgrund ihrer Fähigkeit, Aufgaben mit Parallel Computing zu parallelisieren, eignen sie sich aber auch besonders für den Einsatz bei Deep Learning. GPUs können Deep-Learning um das zehn- bis 20-fache beschleunigen und dadurch den Zeitaufwand für das Trainieren von neuronalen Netzen von Wochen auf Tage oder Stunden reduzieren.

    Die fortschrittlichste Architektur dafür ist Volta. Sie verbindet CUDA-Kerne und Tensor Cores in einer Rechenarchitektur. Damit bietet sie die Leistung eines KI-Supercomputers in einer einzigen GPU. Unser System Nvidia Jetson AGX Xavier basiert auf dieser Architektur. Neuartige Geräte benötigen diese enorme Rechenleistung für die Echtzeitverarbeitung komplexer Informationen.

    Eddie Seymour, Director Embedded Business bei Nvidia

    Bild: Nvidia

  • Die On-Device-KI ist ein vielschichtiges Problem, das mit einem monolithischen Rechenkern oder einer Architektur nicht effektiv gelöst werden kann. Algorithmus-Innovationen bringen die KI-Domäne schnell voran, bergen aber Risiken, da mit dedizierten KI-Beschleunigern nicht gerechnet werden kann, um neuronale Netzwerke und kundenspezifische Betreiber effizient zu verarbeiten. Eine heterogene Rechenstrategie, die eine Kombination aus programmierbaren Architekturen und dedizierten KI-Beschleunigern nutzt, ist der richtige Ansatz.

Bei Qualcomm lösen wir das Problem mit unserer KI-Engine. Sie besteht aus Hardware mit mehreren Kernen und Architekturen, Softwarewerkzeugen und Bibliotheken sowie der Unterstützung einer breiten Palette von neuronalen Netzwerkframeworks zur Beschleunigung der KI-Workloads.

Gary Brotman, Senior Director Product Management bei Qualcomm

    Die On-Device-KI ist ein vielschichtiges Problem, das mit einem monolithischen Rechenkern oder einer Architektur nicht effektiv gelöst werden kann. Algorithmus-Innovationen bringen die KI-Domäne schnell voran, bergen aber Risiken, da mit dedizierten KI-Beschleunigern nicht gerechnet werden kann, um neuronale Netzwerke und kundenspezifische Betreiber effizient zu verarbeiten. Eine heterogene Rechenstrategie, die eine Kombination aus programmierbaren Architekturen und dedizierten KI-Beschleunigern nutzt, ist der richtige Ansatz.

    Bei Qualcomm lösen wir das Problem mit unserer KI-Engine. Sie besteht aus Hardware mit mehreren Kernen und Architekturen, Softwarewerkzeugen und Bibliotheken sowie der Unterstützung einer breiten Palette von neuronalen Netzwerkframeworks zur Beschleunigung der KI-Workloads.

    Gary Brotman, Senior Director Product Management bei Qualcomm

    Bild: Qualcomm

  • Heterogene Hardwarearchitekturen bewähren sich in eingebetteten KI-Anwendungen, weil sie sich gleichzeitig auf verschiedene Verarbeitungsarten spezialisieren lassen. Heterogene Prozessoren wie der Sitara AM5749 von Texas Instruments enthalten leistungsstarke ARM-Cores zur Verarbeitung des Betriebssystems und übergeordneter Tasks. Zusätzlich bringen sie spezielle DSP-Kerne und EVE-Subsysteme (Embedded Vision Engine) mit, die sich zum Beschleunigen von KI-Funktionen nutzen lassen. Die DSPs und EVEs führen standardmäßige OpenCL-Aufrufe aus, was die Leistungsfähigkeit verbessert, aber die Entwicklung und Programmierung einfach hält.

Heterogene Bauelemente können zudem den Umfang und die Kosten reduzieren, indem sie spezialisierte Verarbeitungselemente in einem Gehäuse vereinen. Auch der Stromverbrauch lässt sich verringern, indem Tasks an das geeignetste Verarbeitungselement ausgelagert werden.

Mark Nadeski, Marketing Manager bei Texas Instruments

    Heterogene Hardwarearchitekturen bewähren sich in eingebetteten KI-Anwendungen, weil sie sich gleichzeitig auf verschiedene Verarbeitungsarten spezialisieren lassen. Heterogene Prozessoren wie der Sitara AM5749 von Texas Instruments enthalten leistungsstarke ARM-Cores zur Verarbeitung des Betriebssystems und übergeordneter Tasks. Zusätzlich bringen sie spezielle DSP-Kerne und EVE-Subsysteme (Embedded Vision Engine) mit, die sich zum Beschleunigen von KI-Funktionen nutzen lassen. Die DSPs und EVEs führen standardmäßige OpenCL-Aufrufe aus, was die Leistungsfähigkeit verbessert, aber die Entwicklung und Programmierung einfach hält.

    Heterogene Bauelemente können zudem den Umfang und die Kosten reduzieren, indem sie spezialisierte Verarbeitungselemente in einem Gehäuse vereinen. Auch der Stromverbrauch lässt sich verringern, indem Tasks an das geeignetste Verarbeitungselement ausgelagert werden.

    Mark Nadeski, Marketing Manager bei Texas Instruments

    Bild: Texas Instruments

Verwandte Artikel