Llevar estadísticas personales en Steemit: Uso del análisis de correlaciones para jugar con los números. Keep personal statistics in Steemit: Use of correlation analysis to play with numbers.

Las publicaciones en Steemit son hechas para dar a conocer nuestro trabajo, nuestras cualidades artísticas, nuestras competencias e incluso nuestras ideas sobre algún tema en particular. El hecho de que publiquemos puede obedecer a motivaciones altruistas para compartir conocimientos, como una forma de hacer amistades y establecer interrelaciones, o además como una manera de tener algún ingreso extra. Sea cual fuere nuestro interés en publicar, el elemento que nos dice si está llegando o no a la audiencia son los votos. Esto puede resultar particularmente estresante cuando se empieza en la comunidad, sobretodo por lo diverso y amplio de los participantes, así como su localización geográfica.

De allí que pudiera ser interesante evaluar si el número de votos y el valor obtenido con la publicación, guardan alguna relación con el día de la semana en el cual se publica y la hora a la que se hace. Evidentemente que lo principal debe ser la calidad y originalidad del contenido; pero en ocasiones vemos cómo contenido muy valioso se pierde en la red. En este sentido, les traigo una forma de determinar matemáticamente, con un margen de confiabilidad mayor al 95%, si estas variables guardan relación entre sí. Para ello les voy a explicar cómo hacer un análisis de correlaciones. Una correlación positiva significa que a medida que aumenta una variable aumenta la otra; mientras que negativa es cuando la relación se torna inversa, es decir, que si una aumenta la otra disminuye.

The publications in Steemit are made to publicize our work, our artistic qualities, our competences and even our ideas on a particular topic. We publish for altruistic reasons to share knowledge, as a way to make friends and establish relationships, or as a way to have some extra money. Whatever our interest in publishing, the votes are the element that tells us whether or not it is coming to the audience. This can be particularly stressful when you start in the community, especially because of the diverse and wide range of participants, as well as their geographical location.

Hence, it could be interesting to evaluate if the number of votes and the value obtained with the publication are related to the day of the week in which it is published and the time at which it is made. Evidently, the main thing must be the content quality and originality; but sometimes we see how valuable content is lost in the network. In this sense, I bring you a way to determine mathematically, with a margin of reliability greater than 95%, if these variables are related to each other. For this I will explain how to do a correlation analysis. A positive correlation means that as one variable increases, the other increases; while negative is when the relationship becomes inverse, that is, if one increases the other decreases.

El primer paso a tomar es elaborar una matriz de datos. Esto lo puedes hacer en cualquier programa para ello. Aquí te muestro el resultado de una matriz con mis datos reales:

The first step to take is to create a data matrix. You can do this in any program for it. Here I show you the result of a matrix with my real data:

Imagen2.png

Los datos deben ser todos numéricos, por eso las horas aparecen como números decimales y los días de la semana con un valor asignado para cada cual. En mi caso consideré sólo el día de la semana porque me pareció más apropiado; pero se puede tener en cuenta el día del mes también. Para saber la hora de publicación basta con colocar el cursor sobre la fecha en la cual se realizó cada publicación

The data must be all numeric, that's why the hours appear as decimal numbers and the days of the week with a value assigned to each one. In my case, I considered only the day of the week because it seemed more appropriate to me; but you can take into account the day of the month as well. To know the time of publication, simply place the cursor on the date on which each publication was made

Imagen1.png

Luego abrimos el programa para ello. En este caso utilizo Statgraphics pero puede ser cualquier otro. La mayoría de ellos tienen opciones de descarga en periodo de prueba que puede servir para hacer este análisis, pero si van a usarlo regularmente deben comprar la licencia. Ya abierto el programa, se procede a copiar y pegar la matriz en la hoja de datos (Databook).

Then we open the program for it. In this case I use Statgraphics but it can be any other. Most of them have download options in the trial period that can be used to do this analysis, but you must buy the license if you are going to use it regularly. Once the program is open, we proceed to copy and paste the matrix in the data sheet (Databook).

Imagen3.png

Los nombres en las columnas se colocan haciendo doble click en ellas.

The names in the columns are placed by double clicking on them.

Ahora debemos seleccionar el tipo de análisis que queremos realizar. En este caso escogemos "Relate", "Multiple factors", "Multiple-Variable Analysis (Correlations)".

Now we must select the type of analysis we want to perform. In this case we choose "Relate", "Multiple factors", "Multiple-Variable Analysis (Correlations)". When doing it, a window will appear in which we must select the variables, they can be all or some, and pass them to the data section.

Imagen4.png

Al hacerlo, aparecerá una ventana en la cual debemos seleccionar las variables, pueden ser todas o algunas, y pasarlas a la sección de datos.

When doing it, a window will appear in which we must select the variables, they can be all or some, and pass them to the data section.

Imagen5.png

Posteriormente, el programa nos muestra un pequeño mensaje donde podemos escoger en tratar todos los casos o solamente aquellos que estén completos.

Subsequently, the program shows us a small message where we can choose to treat all cases or only those that are complete.

Imagen7.png

Al marcar la casilla "ok", aparecerá una nueva ventana. En esta se pueden seleccionar los resultados de los análisis que queremos ver. Yo les recomiendo, particularmente a las personas que no tengan experiencia con el manejo de la estadística, que únicamente marquen la opción "Rank correlations", que implicará el uso de una prueba estadística que no tiene requisitos en cuanto a la naturaleza de los datos, sino que sean numéricos. Es un poco menos robusta pero igualmente da resultados confiables.

By checking the "ok" box, a new window will appear. In this window you can select the results of the analyzes that you want to see. If you do not have experience with the management of statistics, I recommend that you only mark the "Rank correlations" option, which will involve the use of a statistical test that does not have requirements as to the nature of the data, but they are numeric. It is a little less robust but also gives reliable results.

Imagen8.png

Luego tendremos los resultados.

Then we will have the results.

Imagen9.png

Ahora vamos a interpretarlos. Nuestras variables van a estar en filas y en columnas, en las casillas que coinciden hay tres números que indican si hay correlación o no entre ellas, y cómo es la correlación: el primero de arriba corresponde al valor del análisis, mientras más cercano a 1 más grande es la relación, si es positivo tiene que ver con una relación directa; el segundo es el tamaño de la muestra, es decir, el número de publicaciones que usamos para los datos, en mi caso 9; y el tercero corresponde al valor P. Si este valor P es menor a 0,05, la correlación es significativa, con una confiabilidad del 95 %. Como se puede ver en la imagen anterior, en mis resultados sólo hay una correlación significativa entre la ganancia y el número de votos, algo que era relativamente esperado, y es positivo el primer valor, lo que quiere decir que a medida que aumenta el número de votos aumenta la ganancia.

Now let's interpret them. Our variables are going to be in rows and columns, and in the squares that match there are three numbers that indicate whether or not there is correlation between them, and how is the correlation: the first one above corresponds to the value of the analysis, the closer to 1 the relationship is bigger, if it is positive it has to do with a direct relationship; the second is the size of the sample, that is, the number of publications we use for the data, in my case 9; and the third corresponds to the value P. If this value P is less than 0.05, the correlation is significant, with a reliability of 95%. As you can see in the previous image, in my results there is only a significant correlation between the gain and the number of votes, something that was relatively expected, and the first value is positive, which means that as the number increases of votes increases the gain.

Pero la relación entre el día de la semana y el número de votos es casi significativa (0,0532), con el valor del análisis positivo. Este resultado pudiera tomarlo como indicador, ya que el tamaño de mi muestra es muy pequeño (9) y además, no es para una publicación científica sino como una guía para mi uso personal, de cuándo pudieran mis publicaciones tener un mayor alcance. El resultado indica que pudiera estar aumentando el número de votos cuando aumenta el día de la semana. Como yo asigné valores consecutivos a mis días de la semana desde el lunes (1) hasta el domingo (7), esto quiere decir que en los días sábado y domingo tendría una mayor probabilidad de alcanzar más votos.

But the relationship between the day of the week and the number of votes is almost significant (0.0532), with the analysis value positive. This result could take it as an indicator, since the size of my sample is very small (9) and it is not for a scientific publication but as a guide for my personal use, about when my publications could have a greater scope. The result indicates that the number of votes could be increasing when the day of the week increases. Since I assigned consecutive values ​​to my days of the week from Monday (1) to Sunday (7), this means that on Saturdays and Sundays I would have a greater probability of reaching more votes.

Imagen10.png

A pesar de que mis resultados no son absolutamente concluyentes, y que trabajé con un número pequeño de variables y de muestras, quise traerles esta forma de cómo jugar con los números para tratar de interpretar las estadísticas que nos aporta Steemit. En todo caso, también les sirve para realizar un análisis de correlaciones con otras variables en cualquier ámbito que requieran. Espero les haya gustado este pequeño tutorial.

Although my results are not absolutely conclusive, and I worked with a small number of variables and samples, I wanted to bring you this way of playing with the numbers to try to interpret the statistics that Steemit gives us. In any case, this publication also helps you to perform a correlation analysis with other variables in any area you require. I hope you liked this little tutorial.

Las imágenes publicadas corresponden a capturas de pantalla desde mi computadora cuando estaba haciendo el análisis.

The published images correspond to screenshots from my computer when I was doing the analysis.

H2
H3
H4
3 columns
2 columns
1 column
2 Comments
Ecency