Big Data: può Spark sostituire Hadoop?

Il termine “Big Data” identifica i dati ottenuti in volumi sempre più cospicui, a velocità crescenti e per una gamma in aumento di formati non strutturati e contesti semantici variabili.

Per ottenere informazioni che portino a prendere le giuste decisioni a partire dai Big Data è necessario però che questi siano analizzabili e accessibili, in modo da avere base adeguata per porre le corrette interrogazioni. Uno strumento che permette di fare tutto questo è Apache Hadoop. Hadoop è un software open source per l’analisi e l’archiviazione di un numero elevato di dati strutturati e non. È stato progettato per garantire la scalabilità da un singolo server a migliaia di macchine, e per rilevare e gestire errori al livello dell'applicazione per una maggiore affidabilità.

Ultimamente si sente spesso parlare di Spark in qualità di sostituto di Hadoop sui Big Data, ma è uno scenario realistico?

In verità le due piattaforme non sono così in competizione come sembra, ma anzi possono convivere e lavorare in modo congiunto.

Piuttosto, per seguire le dichiarazioni di uno dei creatori di Hadoop, Matt Cutting, Spark sostituirà il modulo di elaborazione Map Reduce, il che permetterà un utilizzo congiunto dei software.

Un esempio di convivenza già attiva dei due è Azure HDInsight, una distribuzione di Apache Hadoop basata sul cloud, che include Apache Spark come framework di elaborazione parallela per ottimizzare l’analisi interattiva e migliorare le prestazioni di applicazioni analitiche di Big Data.

Il sito utilizza cookie tecnici e di analisi per il corretto funzionamento e cookie di terze parti (solamente cookie di social media sharing: cookie di terza parte che vengono utilizzati per integrare alcune diffuse funzionalità dei principali social media e fornirle all'interno del sito).
Utilizzando questo sito web si accetta il nostro utilizzo dei cookie come descritto nella Privacy Policy.
Per saperne di più, vedere la pagina Privacy Policy.