Big Data: può Spark sostituire Hadoop?

Il termine “Big Data” identifica i dati ottenuti in volumi sempre più cospicui, a velocità crescenti e per una gamma in aumento di formati non strutturati e contesti semantici variabili.

Per ottenere informazioni che portino a prendere le giuste decisioni a partire dai Big Data è necessario però che questi siano analizzabili e accessibili, in modo da avere base adeguata per porre le corrette interrogazioni. Uno strumento che permette di fare tutto questo è Apache Hadoop. Hadoop è un software open source per l’analisi e l’archiviazione di un numero elevato di dati strutturati e non. È stato progettato per garantire la scalabilità da un singolo server a migliaia di macchine, e per rilevare e gestire errori al livello dell'applicazione per una maggiore affidabilità.

Ultimamente si sente spesso parlare di Spark in qualità di sostituto di Hadoop sui Big Data, ma è uno scenario realistico?

In verità le due piattaforme non sono così in competizione come sembra, ma anzi possono convivere e lavorare in modo congiunto.

Piuttosto, per seguire le dichiarazioni di uno dei creatori di Hadoop, Matt Cutting, Spark sostituirà il modulo di elaborazione Map Reduce, il che permetterà un utilizzo congiunto dei software.

Un esempio di convivenza già attiva dei due è Azure HDInsight, una distribuzione di Apache Hadoop basata sul cloud, che include Apache Spark come framework di elaborazione parallela per ottimizzare l’analisi interattiva e migliorare le prestazioni di applicazioni analitiche di Big Data.

Il sito utilizza solo cookie tecnici e di analisi per il corretto funzionamento e vengono utilizzati cookie di terze parti. A seguito della normativa UE siamo obbligati a chiedere il vostro consenso. Si prega di accettare i cookies per il caricamento delle informazioni, proprio come qualsiasi altro sito su Internet. Utilizzando il nostro sito web si accetta la nostra Privacy Policy e Termini di servizio. Per saperne di più sui cookie che utilizziamo, vedere la pagina Privacy