¿Qué tan grandes son las redes sociales y realmente cuentan como 'Big Data'?

0
20
views

Mejora tu posicionamiento en las redes sociales con COOMMU!



<div _ngcontent-c14 = "" innerhtml = "

Getty Images. Getty

Las redes sociales se han convertido en sinónimo de" big data "gracias a su amplia disponibilidad y su estatura como motor de lo global. conversación. Su tamaño masivo, alta velocidad de actualización y variedad de modalidades de contenido se citan con frecuencia como un ejemplo de libro de texto de lo que constituye “big data” en el mundo empapado de datos de hoy. ¿Más grande que las fuentes de datos tradicionales como el periodismo?

Sostenemos las plataformas de redes sociales hoy en día como el epítome de "big data". Sin embargo, la falta de visibilidad externa en esas plataformas significa que casi todas nuestras evaluaciones se basan en la mano & nbsp; estadísticas seleccionadas que las compañías eligen informar al público y las innumerables formas en que esas cifras, como los "usuarios activos", evolucionan constantemente para reflejar la imagen más rosada posible del crecimiento de las redes sociales en general.

Mucho Nuestro respeto por las plataformas sociales proviene de la creencia de que sus servidores tienen un archivo inimaginablemente grande de comportamiento humano global. ¿Pero ese archivo es mucho más grande que los medios que lo preceden como el periodismo tradicional?

 

Facebook anunció su primer gran conjunto de datos de investigación el año pasado, que consiste en de "un petabyte de datos con casi todas las URL públicas que los usuarios de Facebook han hecho clic en el mundo, cuándo y por qué tipo de personas". estatura de petabyte, se estimó que el número real de filas era relativamente pequeño. En total, el conjunto de datos se proyectó para contener solo 30 mil millones filas cuando se anunció, creciendo a una tasa de solo 2 millones de URL únicas en 300 millones de publicaciones por semana, una vez completado.

Para muchos investigadores, 30 mil millones de filas suenan como una cantidad extraordinaria de datos que no podrían analizar en su vida. Sin embargo, para los estándares modernos, 30 mil millones de registros es un conjunto de datos bastante pequeño y el petabyte como punto de referencia de "big data" es largo pass & eacute; .

De hecho, mis propios datos abiertos GDELT El Proyecto ha compilado una base de datos de más de 85 billones de enlaces de páginas de salida de noticias de todo el mundo desde marzo de 2018, lo que la hace 2.8 veces más grande que el conjunto de datos de Facebook. solo la mitad el tiempo.

En comparación con los medios de comunicación, los medios sociales no son necesariamente mucho más grandes. Es simplemente que históricamente nos han faltado las herramientas para tratar los medios de comunicación como datos masivos. En contraste, las redes sociales se han comercializado agresivamente como "big data" desde el principio, con formatos de datos y mecanismos API diseñados para maximizar su accesibilidad a la analítica moderna.

En sus 13 cortos años, Twitter se ha convertido en la cara de facto de la gran Revolución de datos cuando se trata de entender la sociedad global. Sus cientos de miles de millones de tweets le dan "volumen", sus cientos de millones de tweets por día le dan "velocidad" y su mezcla de texto, imágenes y videos ofrecen "variedad".

¿Qué tan grande es Twitter de todos modos? [19659003] La compañía en sí ya no publica informes regulares de cuántos tweets se envían por día o cuántos tweets se han enviado desde su fundación y no respondió de inmediato a una solicitud de comentarios sobre el número total de tweets que se han enviado en su historia. . Sin embargo, extrapolando de estudios anteriores podemos estimar razonablemente que si las tendencias se han mantenido allí, ha habido algo más de un billón de tweets enviados desde la fundación del servicio hace 13 años.

A primera vista, un billón de tweets suena como un número increíblemente grande, especialmente dado que cada uno de esos billones de tweets consiste en un registro JSON con varios campos.

Sin embargo, los tweets son extremadamente pequeños, históricamente con un máximo de solo 140 caracteres de texto. Esto significa que si bien hay muchos tweets, cada uno de ellos dice muy poco.

En realidad, pocos tweets se acercan al límite histórico de 140 caracteres de Twitter. El tweet promedio en inglés es de alrededor de 34 caracteres mientras que el tweet japonés promedio es de 15 caracteres lo que refleja la información variable transmitida por un solo carácter en cada idioma.

Además, mientras que Twitter es crudo los datos pueden ser bastante grandes (un mes de Decahose fue 2.8TB en 2012), solo el 4% de un registro de Twitter es el texto del tweet en sí. El 96% restante es una combinación de todos los metadatos que Twitter proporciona sobre cada tweet y el formato de almacenamiento altamente ineficiente de JSON.

Dado que la mayoría de los análisis de Twitter se centran en el texto de cada tweet, esto significa el volumen real de datos que deben procesarse.

Suponiendo que todos los billones de tweets tuvieran un máximo de 140 caracteres, darían solo 140 TB de texto (el número real sería un poco más alto para la codificación UTF8).

2012, la longitud promedio de los tweets en todo el Twitter fue de 74 bytes (los bytes, a diferencia de los caracteres, representan la longitud adicional de la codificación UTF8 de texto no ASCII), lo que & nbsp; significa que esos billones de tweets consumirían solo 74TB de texto: una colección grande, pero difícil de manejar.

Si extrapolamos de 2012-2014 las tendencias de Twitter estiman que en algún lugar del 35% de todos los billones de tweets se han retuiteado. s (suponiendo que no haya cambios importantes en el comportamiento del retweet), luego, al utilizar esa longitud promedio de 74 bytes se obtendrían solo 48 TB de texto único.

Por supuesto, esto ocurre antes de que se eliminen los hipervínculos encontrados en aproximadamente un tercio de los tweets (nuevamente asumiendo tendencias desde 2014). También ignora la prevalencia de las referencias de "@nombredeusuario" en los tweets que no contribuyen a su texto analizable.

A modo de comparación, la colección de de Google Books que representa el 4% de todos los libros publicados totaliza 500. mil millones de palabras (361 mil millones de palabras en inglés) y se estimó en alrededor de 3TB de tamaño. Eso lo haría 25 veces más pequeño que la totalidad de Twitter. La colección de libros de dominio público en idioma inglés de Internet Archive totaliza alrededor de 450GB de texto, por lo que es aproximadamente 86 veces más pequeña que Twitter.

Las colecciones de libros digitalizados de Google y de Internet Archive incluyen solo una sola copia de cada libro, por lo que es injusto compararlos con Twitter con sus innumerables retweets. Al filtrar los retweets, encontramos que Twitter es solo 16 veces más grande que la colección fuente de Google Books NGrams, mientras que la colección de libros de dominio público de Internet Archive es 54 veces más pequeña.

Es un comentario notable sobre la era digital que solo 13 Los años de tweets son más grandes que los dos siglos de libros digitalizados disponibles para los investigadores de hoy.

En parte, esto se debe al hecho de que una pequeña parte de nuestra historia ha sido digitalizada (menos del 4% de los libros publicados conocidos están representados en el conjunto de datos de Google Books NGrams). En esencia, estamos comparando la totalidad de los 13 años de Twitter con solo una muestra del 4% de dos siglos de libros.

Un factor más importante es la economía fundamentalmente alterada de la publicación en la era digital. A través de los dos siglos de libros impresos en las dos colecciones anteriores, el costo de publicar un libro fue tan sustancial que muy pocos autores fueron recompensados ​​por sus esfuerzos con los volúmenes publicados y cada palabra de un libro importaba.

En contraste, en el El volumen de publicación de la era de Twitter está limitado solo por la velocidad que se puede escribir (o tener un tipo de bot en su nombre).

Esto significa que para comparar verdaderamente el tamaño de Twitter con otros conjuntos de datos, debemos compararlo con una colección digital similar. Dado que el conjunto de datos de noticias anterior terminó siendo casi tres veces más grande que el conjunto de datos equivalente de Facebook en solo la mitad del tiempo, ¿cómo se compara Twitter con el periodismo tradicional?

Durante el período de noviembre de 2014 hasta la fecha, el Proyecto GDELT supervisó aproximadamente 3 TB. del texto del artículo de noticias (contando solo el texto del artículo en sí, no los cientos de terabytes de HTML, CSS, JavaScript e imágenes circundantes).

Durante ese mismo período de tiempo, podemos estimar en base a tendencias que es probable que Twitter haya publicado cerca de 600 mil millones de tweets, de los cuales 330 mil millones no fueron retweets (suponiendo que las tendencias se hayan mantenido con el aumento del volumen de retweets a lo largo del tiempo).

Esto se aplicaría a aproximadamente 84 TB de texto durante ese período, si cada tweet fuera el máximo de 140 caracteres o alrededor de 44 TB utilizando una longitud de tweet promedio de 74 caracteres. Si se excluyen los retweets, esto se reduciría a solo 24 TB de texto, suponiendo una longitud de tweet promedio.

El contenido de las noticias puede contener artículos informativos sindicados que se publican en múltiples medios, pero el volumen de dicha publicación como porcentaje de la totalidad de la producción periodística diaria Es poco probable que se acerque a la importancia del retweeting.

Contando todos los trillones de tweets enviados desde 2006 hasta el presente y asumiendo que todos ellos tuvieran un máximo de 140 caracteres, el archivo de Twitter sería solo 47 veces más grande que la producción de noticias en línea global 2014-presente según lo supervisado por GDELT. Usando la longitud de tweet promedio más realista, Twitter sería solo 25 veces más grande y eliminar los retweets sería 16 veces más grande.

Por supuesto, esas cifras comparan un tramo de 13 años de Twitter con solo 4 años de noticias. [19659003] Comparando los dos en el mismo período de cuatro años, encontramos que Twitter fue aproximadamente 15 veces más grande que las noticias, pero solo 8 veces más grande si se eliminan los retweets.

Por lo tanto, si uno tuvo acceso a la red de bomberos completa de Twitter 2014- En la actualidad, el volumen total de texto probablemente sea solo alrededor de 8 veces mayor que el volumen total de contenido de noticias en línea durante el mismo período de tiempo.

Visto de esta manera, Twitter es grande, pero no es mucho más grande que periodismo global, que nos recuerda la cantidad de noticias que se publican cada día en todo el mundo.

Muy pocos investigadores tienen acceso a la manguera completa, por lo que la investigación académica más grande se realiza normalmente con Twitter Decahose que contiene alrededor del 10% o

La producción total de Decahose 2014-presente es solo 1.5 veces más grande que las noticias. Al eliminar los retweets, la situación se invierte y las noticias en realidad son 1.2 veces más grandes que las de Decahose de Twitter.

Pocas universidades tienen los recursos financieros para suscribirse a Twitter Decahose, por lo que la gran mayoría de las investigaciones académicas de Twitter se realizan con la API de búsqueda de Twitter o su API de transmisión del 1% que hace que esté disponible aproximadamente el 1% de los tweets diarios.

Las noticias son en realidad 6,7 veces más grandes que la transmisión del 1% de Twitter durante este período. Si se eliminan los retweets, las noticias aumentan a 12.2 veces más que Twitter.

Por lo tanto, en términos del 1% de datos con los que trabaja la mayoría de los académicos, Twitter en los últimos cuatro años es en realidad varias veces más pequeño que la producción de noticias en línea en todo el mundo. mismo período de tiempo Los académicos que tuvieron la suerte de trabajar con Decahose todavía tienen menos contenido del que obtendrían con las noticias. Sin embargo, incluso si uno tuviera toda la manguera a su disposición, la totalidad de ese contenido sería solo 8 veces más grande que el contenido de noticias. Filtrar todos los hipervínculos y las referencias de nombre de usuario reducirá aún más ese número.

En resumen, Twitter es ciertamente un gran conjunto de datos, pero en términos del contenido textual real de los tweets en que se centran la mayoría de los análisis, vemos que hay un billón de tweets. En realidad, no trabajamos mucho con ese texto debido a su pequeño tamaño. En muchos sentidos, Twitter es más parecido a los datos de mensajería de comportamiento que una plataforma tradicional basada en contenido, especialmente por la forma en que su comportamiento de retweet corresponde a las métricas "similares" y de "compromiso" de otras plataformas.

Lo más importante es que vemos que incluso a nivel completo, Twitter no es realmente mucho más grande que los conjuntos de datos contemporáneos tradicionales que lo preceden como medios de comunicación. Twitter puede ser más rápido pero no es mucho más grande. En términos de los productos Decahose y 1% con los que trabaja la mayoría de los investigadores, los medios informativos ofrecen en realidad un mayor volumen de contenido analizable con una procedencia, estabilidad y contexto histórico mucho mejor entendidos.

Poner todo esto junto, se ha convertido en la sabiduría aceptada de la era del "big data" que los gigantes de las redes sociales reinan sobre el panorama de los datos, sus archivos forman la definición misma de lo que significa trabajar con "big data". Sin embargo, como hemos visto aquí, un billón de tweets rápidamente solo unas pocas decenas de terabytes de texto real, recordándonos que los flujos de mensajes pequeños de alta velocidad como Twitter pueden consistir en un gran número de registros, pero muy pocos datos reales que sean relevantes para nuestros análisis.

Igual de importante es que que las fuentes de datos tradicionales como los medios de comunicación son en realidad tan grandes como los archivos sociales con los que trabajamos, y nos recuerdan las inmensas fuentes de datos sin explotar más allá de la novedad brillante de las redes sociales.

Twitter Ciertamente cumple con todas las definiciones de "big data", pero si nos fijamos bien, encontramos que el buen periodismo tradicional no está muy lejos. La diferencia es que las redes sociales se han comercializado agresivamente como "big data", mientras que el periodismo no se ha rebautizado para la era digital.

Al final, en lugar de mitificar las redes sociales como la personificación definitiva de "big data", quizás la lección más importante aquí es que debemos pensar de manera creativa sobre cómo aprovechar la gran cantidad de datos sin explotar que nos rodean y llevarlos a la era del big data.

">

Las redes sociales se han convertido en sinónimo de "big data" gracias a su amplia disponibilidad y su estatura como motor de la conversación global. El tamaño masivo, la alta velocidad de actualización y el rango de las modalidades de contenido se citan con frecuencia como un ejemplo de libro de texto de lo que constituye "big data" en el mundo empapado de datos de hoy. Sin embargo, si nos fijamos un poco más de cerca, ¿son las redes sociales realmente mucho más grandes que las fuentes de datos tradicionales como el periodismo?

Sostenemos las plataformas de redes sociales hoy en día como el epítome de "big data". Sin embargo, la falta de visibilidad externa en Esas plataformas significan que casi todas nuestras evaluaciones se basan en las estadísticas seleccionadas cuidadosamente que las compañías eligen informar al público y las innumerables formas en que esas cifras, como los "usuarios activos", evolucionan constantemente para reflejar la imagen más rosada posible del crecimiento.

Gran parte de nuestro respeto por las plataformas sociales proviene de la creencia de que sus servidores tienen un archivo inimaginablemente grande de comportamiento humano global. Pero, ¿ese archivo es mucho más grande que los medios que lo preceden como el periodismo tradicional?

Facebook anunció su primer gran conjunto de datos de investigación el año pasado, que consiste en de "un petabyte de datos con casi todos los usuarios de URL públicos en Facebook a nivel mundial han hecho clic en, cuándo y por qué tipo de personas ". A pesar de su estatura de petabyte, se estimó que el número real de filas era relativamente pequeño. En total, el conjunto de datos se proyectó para contener solo 30 mil millones filas cuando se anunció, creciendo a una tasa de solo 2 millones de URL únicas en 300 millones de publicaciones por semana, una vez completado.

Para muchos investigadores, 30 mil millones de filas suenan como una cantidad extraordinaria de datos que no podrían analizar en su vida. Sin embargo, para los estándares modernos, 30 mil millones de registros es un conjunto de datos bastante pequeño y el petabyte como punto de referencia de "big data" es largo passé .

De hecho, mis propios datos abiertos Proyecto GDELT ha compilado una base de datos de más de 85 billones de enlaces de páginas de salida de noticias mundiales desde marzo de 2018, haciéndolo 2,8 veces más grande que el conjunto de datos de Facebook en solo la mitad el tiempo.

En comparación con los medios de comunicación, las redes sociales no son necesariamente mucho más grandes. Es simplemente que históricamente nos han faltado las herramientas para tratar los medios de comunicación como datos masivos. En contraste, las redes sociales se han comercializado agresivamente como "big data" desde el principio, con formatos de datos y mecanismos API diseñados para maximizar su accesibilidad a la analítica moderna.

En sus 13 cortos años, Twitter se ha convertido en la cara de facto de la gran Revolución de datos cuando se trata de entender la sociedad global. Sus cientos de miles de millones de tweets le dan "volumen", sus cientos de millones de tweets por día le dan "velocidad" y su mezcla de texto, imágenes y videos ofrecen "variedad".

¿Qué tan grande es Twitter de todos modos? [19659003] La compañía en sí ya no publica informes regulares de cuántos tweets se envían por día o cuántos tweets se han enviado desde su fundación y no respondió de inmediato a una solicitud de comentarios sobre el número total de tweets que se han enviado en su historia. . Sin embargo, extrapolando de estudios anteriores podemos estimar razonablemente que si las tendencias se han mantenido allí, ha habido algo más de un billón de tweets enviados desde la fundación del servicio hace 13 años.

A primera vista, un billón de tweets suena como un número increíblemente grande, especialmente dado que cada uno de esos billones de tweets consiste en un registro JSON con varios campos.

Sin embargo, los tweets son extremadamente pequeños, históricamente con un máximo de solo 140 caracteres de texto. Esto significa que si bien hay muchos tweets, cada uno de ellos dice muy poco.

En realidad, pocos tweets se acercan al límite histórico de 140 caracteres de Twitter. El tweet promedio en inglés es de alrededor de 34 caracteres mientras que el tweet japonés promedio es de 15 caracteres lo que refleja la información variable transmitida por un solo carácter en cada idioma.

Además, mientras que Twitter es crudo los datos pueden ser bastante grandes (un mes de Decahose fue 2.8TB en 2012), solo el 4% de un registro de Twitter es el texto del tweet en sí. El 96% restante es una combinación de todos los metadatos que Twitter proporciona sobre cada tweet y el formato de almacenamiento altamente ineficiente de JSON.

Dado que la mayoría de los análisis de Twitter se centran en el texto de cada tweet, esto significa el volumen real de datos que deben procesarse.

Suponiendo que todos los billones de tweets tuvieran un máximo de 140 caracteres, darían solo 140 TB de texto (el número real sería un poco más alto para la codificación UTF8).

2012, la longitud promedio de los tweets en todo el Twitter fue de 74 bytes (los bytes, a diferencia de los caracteres, representan la longitud adicional de la codificación UTF8 de texto no ASCII), lo que significaría que esos billones de tweets consumirían solo 74 TB de texto : una colección grande, pero difícil de manejar.

Si extrapolamos de 2012-2014 las tendencias de Twitter estiman que en alguna parte del 35% de todos los billones de tweets han sido retweets (un asumiendo que no hay cambios importantes en el comportamiento de los retweets, entonces, usar esa longitud promedio de 74 bytes produciría solo 48 TB de texto único.

Por supuesto, esto es antes de que se eliminen los hipervínculos encontrados en aproximadamente un tercio de los tweets (nuevamente, asumiendo tendencias celebrado desde 2014). También ignora la prevalencia de las referencias de "@nombredeusuario" en los tweets que no contribuyen a su texto analizable.

A modo de comparación, la colección de de Google Books que representa el 4% de todos los libros publicados totaliza 500. mil millones de palabras (361 mil millones de palabras en inglés) y se estimó en alrededor de 3TB de tamaño. Eso lo haría 25 veces más pequeño que la totalidad de Twitter. La colección de libros de dominio público en idioma inglés de Internet Archive totaliza alrededor de 450GB de texto, por lo que es aproximadamente 86 veces más pequeña que Twitter.

Las colecciones de libros digitalizados de Google y de Internet Archive incluyen solo una sola copia de cada libro, por lo que es injusto compararlos con Twitter con sus innumerables retweets. Al filtrar los retweets, encontramos que Twitter es solo 16 veces más grande que la colección fuente de Google Books NGrams, mientras que la colección de libros de dominio público de Internet Archive es 54 veces más pequeña.

Es un comentario notable sobre la era digital que solo 13 Los años de tweets son más grandes que los dos siglos de libros digitalizados disponibles para los investigadores de hoy.

En parte, esto se debe al hecho de que una pequeña parte de nuestra historia ha sido digitalizada (menos del 4% de los libros publicados conocidos están representados en el conjunto de datos de Google Books NGrams). En esencia, estamos comparando la totalidad de los 13 años de Twitter con solo una muestra del 4% de dos siglos de libros.

Un factor más importante es la economía fundamentalmente alterada de la publicación en la era digital. A través de los dos siglos de libros impresos en las dos colecciones anteriores, el costo de publicar un libro fue tan sustancial que muy pocos autores fueron recompensados ​​por sus esfuerzos con los volúmenes publicados y cada palabra de un libro importaba.

En contraste, en el El volumen de publicación de la era de Twitter está limitado solo por la velocidad que se puede escribir (o tener un tipo de bot en su nombre).

Esto significa que para comparar verdaderamente el tamaño de Twitter con otros conjuntos de datos, debemos compararlo con una colección digital similar. Dado que el conjunto de datos de noticias anterior terminó siendo casi tres veces más grande que el conjunto de datos equivalente de Facebook en solo la mitad del tiempo, ¿cómo se compara Twitter con el periodismo tradicional?

Durante el período de noviembre de 2014 hasta la fecha, el Proyecto GDELT supervisó aproximadamente 3 TB. del texto del artículo de noticias (contando solo el texto del artículo en sí, no los cientos de terabytes de HTML, CSS, JavaScript e imágenes circundantes).

Durante ese mismo período de tiempo, podemos estimar en base a tendencias que es probable que Twitter haya publicado cerca de 600 mil millones de tweets, de los cuales 330 mil millones no fueron retweets (suponiendo que las tendencias se hayan mantenido con el aumento del volumen de retweets a lo largo del tiempo).

Esto se aplicaría a aproximadamente 84 TB de texto durante ese período, si cada tweet fuera el máximo de 140 caracteres o alrededor de 44 TB utilizando una longitud de tweet promedio de 74 caracteres. Si se excluyen los retweets, esto se reduciría a solo 24 TB de texto, suponiendo una longitud de tweet promedio.

El contenido de las noticias puede contener artículos informativos sindicados que se publican en múltiples medios, pero el volumen de dicha publicación como porcentaje de la totalidad de la producción periodística diaria Es poco probable que se acerque a la importancia del retweeting.

Contando todos los trillones de tweets enviados desde 2006 hasta el presente y asumiendo que todos ellos tuvieran un máximo de 140 caracteres, el archivo de Twitter sería solo 47 veces más grande que la producción de noticias en línea global 2014-presente según lo supervisado por GDELT. Usando la longitud de tweet promedio más realista, Twitter sería solo 25 veces más grande y eliminar los retweets sería 16 veces más grande.

Por supuesto, esas cifras comparan un tramo de 13 años de Twitter con solo 4 años de noticias. [19659003] Comparando los dos en el mismo período de cuatro años, encontramos que Twitter fue aproximadamente 15 veces más grande que las noticias, pero solo 8 veces más grande si se eliminan los retweets.

Por lo tanto, si uno tuvo acceso a la red de bomberos completa de Twitter 2014- En la actualidad, el volumen total de texto probablemente sea solo alrededor de 8 veces mayor que el volumen total de contenido de noticias en línea durante el mismo período de tiempo.

Visto de esta manera, Twitter es grande, pero no es mucho más grande que periodismo global, que nos recuerda la cantidad de noticias que se publican cada día en todo el mundo.

Muy pocos investigadores tienen acceso a la manguera completa, por lo que la investigación académica más grande se realiza normalmente con Twitter Decahose que contiene alrededor del 10% o

La producción total de Decahose 2014-presente es solo 1.5 veces más grande que las noticias. Al eliminar los retweets, la situación se invierte y las noticias en realidad son 1.2 veces más grandes que las de Decahose de Twitter.

Pocas universidades tienen los recursos financieros para suscribirse a Twitter Decahose, por lo que la gran mayoría de las investigaciones académicas de Twitter se realizan con la API de búsqueda de Twitter o su API de transmisión del 1% que hace que esté disponible aproximadamente el 1% de los tweets diarios.

Las noticias son en realidad 6,7 veces más grandes que la transmisión del 1% de Twitter durante este período. Si se eliminan los retweets, las noticias aumentan a 12.2 veces más que Twitter.

Por lo tanto, en términos del 1% de datos con los que trabaja la mayoría de los académicos, Twitter en los últimos cuatro años es en realidad varias veces más pequeño que la producción de noticias en línea en todo el mundo. mismo período de tiempo Los académicos que tuvieron la suerte de trabajar con Decahose todavía tienen menos contenido del que obtendrían con las noticias. Sin embargo, incluso si uno tuviera toda la manguera a su disposición, la totalidad de ese contenido sería solo 8 veces más grande que el contenido de noticias. Filtrar todos los hipervínculos y las referencias de nombre de usuario reducirá aún más ese número.

En resumen, Twitter es ciertamente un gran conjunto de datos, pero en términos del contenido textual real de los tweets en que se centran la mayoría de los análisis, vemos que hay un billón de tweets. En realidad, no trabajamos mucho con ese texto debido a su pequeño tamaño. En muchos sentidos, Twitter es más parecido a los datos de mensajería de comportamiento que una plataforma tradicional basada en contenido, especialmente por la forma en que su comportamiento de retweet corresponde a las métricas "similares" y de "compromiso" de otras plataformas.

Lo más importante es que vemos que incluso a nivel completo, Twitter no es realmente mucho más grande que los conjuntos de datos contemporáneos tradicionales que lo preceden como medios de comunicación. Twitter puede ser más rápido pero no es mucho más grande. En términos de los productos Decahose y 1% con los que trabaja la mayoría de los investigadores, los medios informativos ofrecen en realidad un mayor volumen de contenido analizable con una procedencia, estabilidad y contexto histórico mucho mejor entendidos.

Poner todo esto junto, se ha convertido en la sabiduría aceptada de la era del "big data" que los gigantes de las redes sociales reinan sobre el panorama de los datos, sus archivos forman la definición misma de lo que significa trabajar con "big data". Sin embargo, como hemos visto aquí, un billón de tweets rápidamente solo unas pocas decenas de terabytes de texto real, recordándonos que los flujos de mensajes pequeños de alta velocidad como Twitter pueden consistir en un gran número de registros, pero muy pocos datos reales que sean relevantes para nuestros análisis.

Igual de importante es que que las fuentes de datos tradicionales como los medios de comunicación son en realidad tan grandes como los archivos sociales con los que trabajamos, y nos recuerdan las inmensas fuentes de datos sin explotar más allá de la novedad brillante de las redes sociales.

Twitter Ciertamente cumple con todas las definiciones de "big data", pero si nos fijamos bien, encontramos que el buen periodismo tradicional no está muy lejos. La diferencia es que las redes sociales se han comercializado agresivamente como "big data", mientras que el periodismo no se ha rebautizado para la era digital.

Al final, en lugar de mitificar las redes sociales como la personificación definitiva de "big data", quizás La lección más importante aquí es que debemos pensar de forma creativa sobre cómo aprovechar la gran cantidad de datos sin explotar que nos rodean y llevarlos a la era del big data.



Source link

LEAVE A REPLY

Please enter your comment!
Please enter your name here