January 11, 2023

Databricks - Lagra data i stora mängder

Den första september i år trädde den nya versionen av Prisinformationslagen 7 a § i kraft vilket innebar en stor förändring för många företag. Den nya lagen säger att om priset på en produkt sänks, ska även det lägsta priset som produkten haft de senaste 30 dagarna anges. För ett företag som har få produkter och sällan ändrar priset skulle detta möjligtvis inte vara en så stor förändring. För ett företag som däremot har flera tusen produkter vars priser ofta fluktuerar skulle den nya lagen ha en betydligt större påverkan. Företagen skulle nu behöva lagra data om samtliga produkters alla olika priser under de senaste 30 dagarna. Det går snabbt att förstå att mängden data som företagen nu behöver lagra har växt enormt jämfört med tidigare.

Lagra stora mängder data

För ett e-handelsbolag vi på Business Vision arbetar med hände just detta. Då e-handelsbolaget köper in sina produkter internationellt i samband med att de beställs av kund, ändras priserna dagligen baserat på växelkurserna. Företaget har även olika kampanjer på sina produkter vilket gör att priserna ofta förändras. E-handelsbolaget behövde med andra ord börja lagra stora mängder data om tusentals produkter och miljontals prisförändringar.

Att lagra data av den storleken i en SQL-databas skulle bli dyrt, och att ställa frågor mot den mängden data för att ta reda på det lägsta priset under den lagbestämda tiden skulle ta tid och därmed göra det ännu dyrare. Vad fanns det då för lösning, där både lagringen av datamängden är billigare och det går att ställa frågor mot data på ett effektivt sätt?

Det kraftfulla verktyget Databricks

Databricks är ett kraftfullt verktyg som bearbetar stora mängder data kostnadseffektivt, och har en kraftfull motor som är lämpad för att ställa frågor mot stora datamängder. Lyckligtvis, använde e-handeln i fråga redan Databricks för att bearbeta sin data och lagrade sin data i Delta Lake.

När priserna förändrades skedde ett ”event”, vilket gjorde att en process i Databricks kördes i gång. Denna sparade alla de nya priserna i en fil som döptes efter datumet då förändringen skedde och uppdaterade de aktuella priserna efter de nya värdena. Då det är billigt att lagra i en Data Lake så var det möjligt att spara dessa filer där, även om de blev många och stora.  

Eftersom Databricks är lämpad att hantera stora mängder data så gick det sedan att gå igenom alla filer där en förändring skett de senaste 30 dagarna och ta fram det lägsta priset för de produkter som var på kampanj. På så vis gick det att få fram det värdet som var lägst, och även att kontrollera att kampanjpriset inte översteg månadens lägsta pris.

Tack vare att kunden redan använde Databricks, kunde en lagförändring som skulle innebära stora kostnader för företaget, lösas på ett smidigt och enkelt sätt.

Är du intresserad av att lära dig mer om Databricks? Läs mer om Databricks här.

Vill du att din verksamhet ska bli mer datadriven?

Boka gärna in ett möte med oss där vi kan berätta mer om hur vi kan hjälpa just din verksamhet att bli mer datadriven. Vi erbjuder bland annat möten, demos, behovsanalyser och startpaket.

Kontakta oss