Cloud & Spark¶

Elastic scaling¶

We hebben niet altijd dezelfde workload nodig. Er zijn verschillende fases exploratie training en productie die allen verschillende noden hebben. Cloud maakt het mogelijk om elke fase zijn infrastructuur te geven.

Infrastructure as Code¶

Omdat het inpluggen aanmaken van een server geen fysieke actie meer is maar gedigitaliseerd is het mogelijk om het aanmaak plan ook te digitaliseren. Het is dus mogelijk om de aanmaak en configuratie stappen digitaal bij te houden.

Lakehouse¶

De toekomstige data die we willen gaan binnenhalen is niet enkel meer gestructureerde data die we ophalen uit transactionele systemen maar zal in de toekomst zeer divers worden. We hebben nood aan infrastructuur die ons in staat zal stellen om deze data in een performante manier te verwerken. Lake houses zijn de geknipte kandidaat. Een lakehouse kunnen we ergens situeren tussen een data lake en een datawarehouse. Waar een data lake perfect geschikt is voor het opslaan van allerlei data blijkt toch uit jaren gebruik dat het waarde creëren uit de opgeslagen data niet triviaal is. Om op een eenvoudigere manier data te kunnen opzetten naar waardevolle inzichten moet een lake house implementatie voldoen aan de volgende vereisten.

Transactie-ondersteuning¶

In een enterprise lakehouse zullen veel data pijplijnen vaak gelijktijdig data lezen en schrijven. Ondersteuning voor ACID-transacties zorgt voor consistentie omdat meerdere partijen gelijktijdig gegevens lezen of schrijven, meestal met behulp van SQL.

Schema-handhaving en beheer:¶

Een lakehouse moet schema-handhaving en evolutie ondersteunen. Zowel DW-schema-architecturen als ster en sneeuwvlok schema’s worden ondersteund. Het systeem moet kunnen redeneren over gegevensintegriteit en moet beschikken over robuuste governance- en controlemechanismen.

BI-ondersteuning¶

Lakehouses maken het mogelijk om BI-tools rechtstreeks op de brongegevens te gebruiken.

###Opslag is losgekoppeld van rekenkracht

In de praktijk betekent dit dat opslag en rekenkracht afzonderlijke clusters gebruiken, waardoor deze systemen kunnen worden geschaald naar veel meer gelijktijdige gebruikers en grotere gegevens omvang.

Openheid¶

De opslagformaten die we gebruiken zijn open en gestandaardiseerd, zoals parquet, en ze bieden een API zodat een verscheidenheid aan tools en engines, waaronder machine learning en Python/R-bibliotheken, efficiënt rechtstreeks toegang hebben tot de gegevens. Ondersteuning voor diverse gegevenstypen, variërend van ongestructureerde tot gestructureerde gegevens

Ondersteuning voor diverse workloads¶

Data science, machine learning en SQL worden ondersteund.

End-to-end streaming¶

Realtime rapporten zijn de norm in veel ondernemingen. Ondersteuning voor streaming elimineert de noodzaak voor afzonderlijke systemen die zijn bedoeld voor het bedienen van realtime gegevens toepassingen.

Als al deze vereiste zijn voldaan kunnen we spreken van een lakehouse. ER zijn mogelijkheden om dit zowel on premise als in de cloud te implementeren.

Basis ML