Data Warehousing: il futuro del processo ETL

processo ETL futuroLa rapida crescita del volume di dati e la loro varietà nel mondo del Data Warehousing richiedono un processo ETL (Extract, Transform and Load) più fluido. L’elaborazione ETL non può essere scavalcata, ma va semplificata per fornire valore all'analisi in un tempo più veloce. Trasformando il processo ETL, le organizzazioni hanno l’opportunità di migliorare la qualità e la disponibilità dei dati. Inoltre, riducendo la quantità di tempo speso elaborando i dati, è possibile aumentare la produttività degli analisti e giungere all’assunzione di un maggior numero di decisioni di business basate sui dati.

Quando si ha a che fare con i Big Data emergono i punti deboli del processo ETL e, per questo, il processo di analisi deve essere ripensato.

Per loro natura intrinseca, i Big Data complicano il processo ETL: i dati, infatti, non provengono più solo da qualche fonte, ma da numerose sorgenti eterogenee che aumentano volume e velocità dei dati in entrata. Inoltre, anche i punti di destinazione sono aumentati: le aziende non hanno più solo il classico Data Warehouse, ma anche altri sistemi, e stanno scoprendo che il processo ETL è sempre più multilingue e multimodale.

Le tradizionali infrastrutture per i processi di ETL sono piuttosto lente: spesso, infatti, i rapporti sono in ritardo e le operazioni aziendali ne sono influenzate. Inoltre, ogni qual volta i dati vengono modificati, gli script ETL devono essere rielaborati e quindi il processo si interrompe frequentemente.

Per ottenere un processo ETL gestibile di fronte ai Big Data, oggi esistono due soluzioni comuni: la scalabilità verticale (scale up) e la scalabilità orizzontale (scale out).

Scalabilità verticale: Le soluzioni ETL tradizionali sono costose di per sé e ciò è aggravato dal fatto che tendono ad essere basate su server separati. La spesa conseguente è un problema per la maggior parte delle aziende, in cui i dati crescono molto più velocemente rispetto al budget assegnato per sostenere la loro gestione (mentre i dati crescono anche del 30-40% all’anno, spesso il bilancio corrispondente delle aziende può crescere solo del 3-4%). Le aziende che si basano sulla loro tecnologia attuale scoprono che, senza investimenti, il processo ETL richiede sempre più tempo e il funzionamento aziendale ne risente.

Scalabilità orizzontale: L'altra opzione è quella di migrare il processo ETL verso un uso di alto valore all’interno di un’architettura di tipo scale-out. Le aziende spesso iniziano a spostare i processi ETL su architetture di questo tipo quando la propria inizia a "cadere". Tale migrazione offre una serie di vantaggi, primo tra tutti la riduzione dei costi.

Con i Big Data si riscontra, quindi, la necessità di disporre di strumenti capaci di gestire un’enorme quantità di flussi di dati con strutture non immediatamente comprensibili; e, di conseguenza, il processo ETL deve necessariamente andare incontro a grandi cambiamenti. In primis dovrà essere in grado di gestire il trasferimento di una notevole quantità di dati, supportando enormi larghezze di banda, dell’ordine di gigabyte al secondo. Inoltre dovrà essere capace di memorizzare i file consistenti di bit non interpretati, senza ipotesi fatte su come il file verrà memorizzato in un database o analizzato. L'architettura di storage dovrà essere aperta in modo che gli strumenti di supporto decisionale possano accedere ai dati attraverso un livello di metadati universale; e le descrizioni dei metadati dovranno essere molto più estensibili, personalizzabili, potenti ed essere rese disponibili come nuove fonti di dati complessi.

 

Il sito utilizza solo cookie tecnici e di analisi per il corretto funzionamento e vengono utilizzati cookie di terze parti. A seguito della normativa UE siamo obbligati a chiedere il vostro consenso. Si prega di accettare i cookies per il caricamento delle informazioni, proprio come qualsiasi altro sito su Internet. Utilizzando il nostro sito web si accetta la nostra Privacy Policy e Termini di servizio. Per saperne di più sui cookie che utilizziamo, vedere la pagina Privacy