Comprendre l’échantillonnage de données en Analytics

Qu’est-ce que le «Data Sampling» ou échantillonnage de données en analytics ?

Pour traiter un volume important de données et assurer un traitement rapide de cette masse de données, la technique du data sampling est encore très largement utilisée au moment même où l’on ne parle que de « Big Data ». En analytics, cette technique présente l’avantage de pouvoir restituer de manière instantanée les données (sans consommer trop de ressources de traitement du côté de l’éditeur, donc minimiser le cout de traitement, et oui le big data gratuit cela n’existe pas encore!). En revanche, la fiabilité et l’intégrité des données peuvent être remise en question.
Au final, on constate que des intervalles de données hétérogènes peuvent donner des résultats assez éloignés de la réalité, conclusions :
– Plus la taille de l’échantillon est grande, plus le résultat sera proche de la réalité.
– Les échantillons doivent être statistiquement représentatifs.
– La répartition des données a un impact important sur le résultat quand les sets de données ne sont pas distribués de manière homogène.