MMS & DATABRICKS

Business Vision hjälper MMS (Mediamätning i Skandinavien) att hantera och analysera stora datamängder i molnet.

Sedan 1993 har MMS utfört mätningar och analyserat konsumtion av TV och rörlig bild. MMS mäter tittandet på program, klipp och reklam och mätningarna fungerar som mediebranschens valuta. Siffrornas kvalitet kontrolleras noga av MMS varje dag och detta arbete är en grundbult i uppdraget att leverera en valuta till branschen. MMS ägs av olika aktörer i den svenska mediebranschen.

UTMANING

Den ständigt växande mängden data som MMS tar hand om varje dag måste dels lagras men främst göras tillgänglig för analytiker och andra konsumenter i och utanför verksamheten. Klassiska arbetslaster som ETL-jobb måste tänkas om och göras skalbara för att de ska kunna växa med datamängden och på så sätt framtidssäkra lösningarna samtidigt som plattformen måste stödja alla typer av Big Data-verktyg som Machine Learning, Deep Learning och avancerade analyser. Utmaningen ligger i att flytta de befintliga delarna till molnet och använda teknik som går att skala och med att datamängderna växer.

lösning

Business Vision har tillsammans med MMS undersökt diverse arkitekturer och slutligen landat i valet att använda Azure Databricks. Databricks kan i stort sett ses som Apache Spark som tjänst (plus en hel del fler funktioner). Med denna teknik bearbetas stora mängder data parallellt på ett effektivt och snabbt sätt. Azure Databricks är väl integrerat med Azure data Lake (gen 2) vilket gör att data kan bearbetas både i batch-jobb och som strömmande data. Med Databricks-tekniker som Delta Lake (inte att förvirra med Data Lake) får vi även funktionalitet likt den i SQL Server med möjlighet att skapa transaktioner, tabeller, möjlighet att enkelt kunna uppdatera data, data-versionshantering och databasscheman. Helt enkelt en uppstyrd Data Lake.

Resultat

Projektet pågår men samarbetet mellan Business Vision och MMS har redan resulterat i möjligheten att utföra ad-hoc analyser på datan direkt i Azure Databricks eller genom att koppla upp sig med en JDBC-anslutning i Power BI. I och med det täta samarbetet har MMS införskaffat sig den kompetens som krävs för att förvalta och utveckla lösningen och några av de tunga ETL-jobben har MMS redan skrivit om till ELT-jobb och de körs nu i Databricks-miljön - att ladda in och transformera ett halvårs data (fär tillfället cirka 5 miljarder rader) tar nu lika lång tid som det förut tog att ladda in 1 dags data. MMS kommer nu även få en bra bas för att kunna köra mer avancerade analysjobb, maskininlärning och AI-jobb direkt på Spark-plattformen