background preloader

Big Data : la nécessité d’un débat

Big Data : la nécessité d’un débat
Il nous a semblé intéressant de traduire, de façon collaborative (via Framapad), l’essai original que viennent de publier danah boyd et Kate Crawford présentant « Six provocations au sujet du phénomène des Big Data ».Ces chercheuses, orientées vers l’ethnographie des usages des technologies de communication, s’interrogent – en toute connaissance de cause [cf. cette étude sur les tweets des révolutions tunisiennes et égyptiennes à laquelle a participé danah boyd]- sur les limites épistémologiques, méthodologiques, mais aussi éthiques des Big Data : champ d’études qui s’ouvre aujourd’hui sur la base des énormes jeux de données que fournit internet, en particulier celles générées par l’activité des usagers des sites de réseaux sociaux, que seuls des systèmes informatiques ont la capacité de collecter et de traiter. 6 provocations à propos des Big Data Traduction : Pierre Grosdemouge (@cultord) & Fred Pailler (@Sociographie) à l’initiative de Laurence Allard. L’ère de Big Data a commencé.

Quantum dévoile des systèmes big data et améliore la dédup de ses DXi Bien connu pour ses solutions de sauvegarde et de stockage sur disques et sur bandes, Quantum a revu cet été plusieurs de ses offres, notamment dans le domaine du big data et de la déduplication. A l'occasion du salon IBC 2011 à Amsterdam, le 13 septembre dernier, Quantum a présenté les produits de la gamme StorNext dédiée au partage et à l'archivage de fichiers volumineux. Comme nous l'a précisé Gabriel Chaher, vice-président EMEA chez Quantum, « pour faire du big data, il ne suffit pas de le dire comme chez certains concurrents. Il est nécessaire de concilier trois éléments : gros volume, gros fichiers et rapidité d'accès ». Conçues pour les environnements SAN, les têtes StorNext M330 (à partir de 75 000$) améliorent les performances de traitement en séparant les métadonnées des données au niveau des entrée/sortie. Des solutions big data 100% Quantum La réaffectation dynamique des données (multitiring intégrale) fait partie des fonctions de base de cette baie.

Facebook, Google : à l'heure du croisement des courbes Un jour, Facebook dépassera Google en apport de trafic. Ceci n’est plus une prédiction, c’est une réalité bien tangible notamment mise en exergue par Frédéric Filloux dans sa Monday Note du 26 mars . Le cas du Guardian y illustre le croisement des courbes : celle de Facebook prend le pas sur celle de Google, jusqu’ici affluent principal. J’ai lu très peu de choses là-dessus et j’en suis surpris. Il est patent de constater que le phénomène se développe avec le lancement de l’application du Guardian sur Facebook. Faire le pari de l’engagement de son public sur Facebook, c’était également celui des changements importants apportés par Facebook , dont nous avons surtout retenu la timeline. Quitte à caricaturer un peu, nous aurions ici : L’un issu de l’époque où le net était en émergence, et où l’acquisition de l’audience était la seule véritable priorité : . L’autre qui s’inscrit dans un internet de la maturité, où l’enjeu est moins d’acquérir que d’engager : . </i>*}

Bases de données graphes : un tour d’horizon Dans un précédent article, nous avons introduit quelques concepts à propos des graphes, et les avons illustrés par deux exemples en utilisant la base de données graphe Neo4j. Au cours de ces dernières années, de nombreuses compagnies ont développé leur solution de base de données graphe, en tant qu’éditeur comme Neo Technology avec Neo4j, Objectivity avec InfiniteGraph ou encore Sparsity avec dex*, ou en développant leur propre solution pour l’intégrer à leur application, comme LinkedIn ou Twitter. Il est donc assez difficile de s’y retrouver dans ce paysage riche, qui continue à évoluer très vite. Dans ce nouvel article qui se focalise sur les bases de données graphes, nous donnerons les éléments nécessaires à la compréhension de leur positionnement dans leur écosystème, par rapport aux autres types de base de données et aux autres types d’outils dédiés au traitement de graphes. Une telle base de données répond donc généralement aux critères suivants : Graph storage et graph processing

Six Provocations for Big Data by Danah Boyd, Kate Crawford danah boyd Microsoft Research; New York University (NYU) - Department of Media, Culture, and Communication; University of New South Wales (UNSW); Harvard University - Berkman Center for Internet & Society Kate Crawford Microsoft Research; MIT Center for Civic Media; University of New South Wales (UNSW)September 21, 2011 A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, September 2011 Abstract: The era of Big Data has begun. This essay offers six provocations that we hope can spark conversations about the issues of Big Data. (This paper was presented at Oxford Internet Institute’s “A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society” on September 21, 2011.) Number of Pages in PDF File: 17 Keywords: Big Data, methodology, sociology, computer science, analysis working papers series Suggested Citation boyd, danah and Crawford, Kate, Six Provocations for Big Data (September 21, 2011).

L’histoire de l’innovation contemporaine c’est les Big Data La lecture de la semaine provient de la vénérable revue The Atlantic et on la doit à Erik Brynjolfsson, économiste à la Sloan School of Management et responsable du groupe Productivité numérique au Centre sur le Business numérique du Massachusetts Institute of Technology et Andrew McAfee auteurs Race Against the Machine (« La course contre les machines où comment la révolution numérique accélère l’innovation, conduit la productivité et irréversiblement transforme l’emploi et l’économie »). Elle s’intitule : « l’histoire de l’innovation contemporaine, c’est les Big Data » (c’est le nom que l’on donne à l’amoncellement des données). En 1670, commence l’article, à Delphes, en Hollande, un scientifique du nom de Anton van Leeuwenhoek (Wikipédia) fit une chose que beaucoup de scientifiques faisaient depuis 100 ans. Il construisit un microscope. Les entreprises d’aujourd’hui peuvent mesurer leur activité et leur relation aux clients avec une précision sans précédent. Xavier de la Porte

Big Data : on n’attire pas les mouches avec du vinaigre Qu’est-ce que le « big data » ? 0inShare A mon avis, pas grand chose de nouveau, un concept marketing comme savent en inventer les hommes de l’art américains, prompts à changer de braquet dès qu’un concept s’érode quelque peu afin de se relancer sur le suivant. D’ailleurs, sait-on réellement de quoi l’on parle ? "Big Data" sur Google Trends Une recherche rapide sur Google Trends nous apprend (voir graphique ci-dessus) que le concept de « big data » est apparu sur la toile mi-2010 et qu’à ce jour un peu plus de trois millions de pages y font référence. Pour quels types de données ? Là encore le concept de big data n’est pas lié à un type de données en particulier. Autres articles

Splash.FM, a Klout for music discovery, opens up beta New York-based social music startup Splash.fm opened up its site to the public Tuesday, allowing anyone to sign up and discover new tunes. The site allows users follow friends and tastemakers in a Twitter-like fashion, share songs with their own network and “splash” the song recommendations of others to show their approval. Users who “splash” a lot of songs and whose recommendations get reshared by others will over time accumulate a high “Splash Score,” which is something like a Klout score for your music curation skills. “I think a Klout-type score is extremely powerful for two reasons. Splash.fm was about two months in private beta, and the site imporved a bunch of things for its public debut, including the algorithm for the Splash Score. “The most important thing we’ve learned from Klout is that user’s cannot lose confidence in the score… ever.

Avec BigQuery, Google veut attirer les Big Data dans le cloud Google propose avec son service BigQuery d'analyser en ligne d'importants jeux de données. L'un des utilisateurs de la version bêta du service, client de l'éditeur français We Are Cloud, y a chargé 15 téraoctets. Alors que la plupart des présentations faites autour des Big Data sous-tendent que les systèmes de traitement seront déployés dans l'entreprise, Google construit un service qui permettra d'analyser dans le cloud d'importants volumes de données. Baptisé BigQuery, ce service pourrait aider les entreprises à analyser leurs données sans avoir besoin de construire une infrastructure, a expliqué Ju-Kay Kwek, responsable produit chez Google, lors d'une intervention sur la conférence GigaOm Structure Data qui s'est tenue cette semaine à New York.

Colleges Awakening to the Opportunities of Data Mining CAMPUSES are places of intuition and serendipity: a professor senses confusion on a student’s face and repeats his point; a student majors in psychology after a roommate takes a course; two freshmen meet on the quad and eventually become husband and wife. Now imagine hard data substituting for happenstance. As Katye Allisone, a freshman at Arizona State University, hunkers down in a computer lab for an 8:35 a.m. math class, the Web-based course watches her back. Answers, scores, pace, click paths — it hoovers up information, like Google. With 72,000 students, A.S.U. is both the country’s largest public university and a hotbed of data-driven experiments. And while not exactly matchmaking, Arizona State takes an interest in students’ social lives, too. This is college life, quantified. Data mining hinges on one reality about life on the Web: what you do there leaves behind a trail of digital breadcrumbs. Data diggers hope to improve an education system in which professors often fly blind.

Related: