(DW) mit Big Data Technologien - Praxisforum | BPM & ERP

06.05.2013 - Importieren und Konvertieren der Videos in *umCloud. • Entnahme der Video-Meta-Daten wie Titel oder Format aus RSS-. Feed der DW.
3MB Größe 7 Downloads 268 Ansichten
Prozessoptimierung in der Markt- und Medienforschung bei der Deutschen Welle (DW) mit Big Data Technologien Berlin, Mai 2013

The unbelievable Machine Company?

06.05.13

The unbelievable Machine Company

2

Spezialisiert

in

W E B O P E R AT I O N S

CLOUD COMPUTING

BIG a u s

06.05.13

DATA B E R L I N

The unbelievable Machine Company

3

Fakten zu *um

•  Gegründet 2008 •  40 Mitarbeiter •  > 100 Geschäftskunden •  Rechenzentren in Berlin und Amsterdam

06.05.13

The unbelievable Machine Company

4

Florian Dohmann Data Scientist bei *um

06.05.13

The unbelievable Machine Company

5

*umDataScienceLab

06.05.13

Course Room

Incubator

Production

Big Data verstehen – Business & Technik

Erste Schritte zur eigenen Big Data Strategie

Big Data zum Fliegen bringen!

The unbelievable Machine Company

6

Unser einzigartiges IT-Framework: *umDataCore R Statistische Verfahren

numpy/scipy, NLTK et al. Machine Learning & NLP

Apache Nutch

MongoDB

Web Crawler

Zentraler Document Store

Apache Solr Datenexploration & Filter

Hadoop & Co. Parallel Job Execution

Python/Java Software Framework

HTML5/CSS/JavaScript Frontend / Visualisierung

06.05.13

The unbelievable Machine Company

7

Motivation des Projekts mit der DW •  Täglich neue Web-Videos und Formate u.a. für das DW-Mediacenter •  Veröffentlichung der Videos auf wichtigen Web-Video-Plattformen wie Youtube, MyVideo oder Daily Motion •  Aktuell mehr als 50.000 Videos Zwei zentrale Problemstellungen: 1.  Prozess des Einstellens der Videos auf den Plattformen weder automatisiert noch standardisiert (dauert lange und ist fehleranfällig) 2.  Kein zentraler Einblick in plattformübergreifende Kennzahlen zu den Videos wie Nutzungszahlen, Likes oder Anzahl von Kommentaren und Bewertungen

06.05.13

The unbelievable Machine Company

8

Lösung 1 Automatisierte, standardisierte Distribution aller Videos über ein zentrales Media-Asset Management-System

2 EIN Interface mit ALLEN Abruf- und Nutzungszahlen ALLER Videos Auf EINEN Blick .. .. für die Markt- und Medienforschung der DW

06.05.13

The unbelievable Machine Company

9

„Typisch deutsch“ im Mediacenter der DW

06.05.13

The unbelievable Machine Company

10

„Typisch deutsch“ auf Youtube

06.05.13

The unbelievable Machine Company

11

„Typisch deutsch“ auf DailyMotion

06.05.13

The unbelievable Machine Company

12

BIRT - REPORT

06.05.13

The unbelievable Machine Company

13

Wie funktioniert‘s?

06.05.13

The unbelievable Machine Company

14

Teil 1: Media-Asset-Management-System •  Entwicklung von Konnektoren für das MAMS zur Anbindung der APIs relevanter Video-Plattformen •  Importieren und Konvertieren der Videos in *umCloud •  Entnahme der Video-Meta-Daten wie Titel oder Format aus RSSFeed der DW •  Standardisierung aller Meta-Daten und Veröffentlichung der optimierten Videos auf den Channels

06.05.13

The unbelievable Machine Company

15

Teil 2: Zentrales webbasiertes Dashboard •  Big-Data-Lösung auf Basis von Hadoop und HBase •  System, das stündlich Abruf- und Nutzungszahlen aller Videos unterschiedlicher Plattformen importiert, normalisiert, aggregiert und die Daten den Mitarbeitern der DW browserbasiert zur Verfügung stellt •  Regelmäßige Map/Reduce-Jobs für übergreifende Auswertungen •  Zwei weitere Reports für RussiaToday und France24 auf Youtube Zentrale Lösungsbausteine: •  Hadoop zur parallelen Job-Ausführung auf aktuell 6 Knoten •  HBase als Datenbank (Daten verteilt im Cluster) •  Machine-Learning Classifier zur automatisierten Gruppen- und Sendungsformatzuordnung 06.05.13

The unbelievable Machine Company

16

Wichtige Fakten •  Sammlung der Daten seit August 2011 •  Erstes Hadoop/HBase-Produktivsystem in Deutschland •  Cluster beliebig erweiterbar und Datenbank damit frei skalierbar •  Anbindung weiterer Channels problemlos möglich •  Reports werden aktuell monatlich erzeugt Bis heute tracken wir stündlich •  ~ 50.000 Videos auf •  25 Kanälen in •  12 Sprachen Das entspricht ~ 1 Milliarde Datensätze! 06.05.13

The unbelievable Machine Company

17

BIRT - REPORT

06.05.13

The unbelievable Machine Company

18

Weiteres Potenzial?

06.05.13

The unbelievable Machine Company

19

Wir haben einen „unique data pool“ Tiefergehende Analysen •  Statistische & graphische Auswertung der Videodaten auf Stunden-, Tages- und Wochenbasis •  .. Clustering von Abrufmustern •  Mustererkennung im Abrufverhalten einzelner Videos •  Analyse zeitlicher Muster (“Welches Video ist wann am beliebtesten”?) •  .. Korrelation / Impact •  Zwischen TV-Sendeplan und Webnutzung •  Zwischen News / Tagesgeschehen und Webnutzung •  ..

06.05.13

The unbelievable Machine Company

20

The unbelievable Machine Company GmbH Grolmanstr. 40 10623 Berlin

Kontakt: Florian Dohmann [email protected] Tel. +49-30-889 26 56-36 Mobile +49-173-75 22 140

06.05.13

The unbelievable Machine Company

21