Durante a realização do MBA em Ciência de Dados do Instituto CeMEAI da USP, propus (com a orientação da Maristela Santos) o projeto "Análise de tendências do YouTube no Brasil", cujo objetivo foi descrever as preferências dos brasileiros na plataforma do YouTube.
Neste trabalho, estudamos, compilamos, estruturamos e extraímos informações sobre métricas e metadados associados com vídeos que foram tendência no YouTube no Brasil. Para a coleta de dados, utilizamos duas fontes: a requisição de dados à YouTube API v3, usada para a estruturação dos dados por meio de scripts próprios escritos na linguagem Python, e uma base de dados estruturada pública disponível no popular website Kaggle, que pode ser consultada em https://www.kaggle.com/datasets/rsrishav/youtube-trending-video-dataset. Essa base de dados registra as listas de tendência desde agosto de 2020 até a atualidade e é atualizada diariamente.
Os Notebooks gerados neste trabalho, assim como as bases de dados tratadas, podem ser acessados através do botão a seguir.
Como em todo projeto envolvendo dados, é muito importante tem um conhecimento robusto dos dados, do tipo de variáveis, das estadísticas sobre os valores assumidos por ditas variáveis, e do tratamento e limpeza que pode chegar a ser necessária para propor modelos sobre os dados.
Apresentamos três representações visuais do trabalho feito como análise descritiva. Convidamos o leitor interessado a consultar o documento completo para mais informações.
Analisando o histograma acima, dado pela figura 5, é possível observar que 90% dos vídeos levam menos de 32 horas para se tornarem tendência. Além disso, há uma maior concentração de tempos de tendência em dois intervalos específicos: [8,11] e [25,32]. Esses intervalos representam 60% do total de tempos de tendência registrados.
Lembramos que cerca de 90% dos vídeos que se tornam tendência conseguem atingir esse status em no máximo um dia e sete horas. O gráfico de barras acima, representado pela figura 6, indica que postar vídeos durante os dias úteis pode aumentar as chances de o vídeo se tornar tendência. Aspiramos validar essa hipótese posteriormente, utilizando técnicas de análise de sobrevivência.
No estudo, foram abordadas duas perguntas de pesquisa: quanto tempo um vídeo tendência leva para deixar de ser tendência e quanto tempo um vídeo demora para se tornar tendência? Essas perguntas foram motivadas pela perspectiva dos criadores de conteúdo, para quem é relevante conhecer quais expectativas podem ter sobre os conteúdos que produzem e postam no YouTube.
A abordagem escolhida para responder a essas perguntas usou a metodologia de análise de sobrevivência. Inicialmente, definimos duas variáveis aleatórias. Em seguida, realizamos uma análise exploratória dos dados voltada ás técnicas de análise de sobrevivência. Depois ajustamos o modelo de análise de sobrevivência. Os resultados mostraram que a mediana do tempo de duração de um vídeo tendência é de 3 dias e que postar em dias úteis não afeta significativamente o tempo que um vídeo leva para se tornar tendência.
Nos descrevemos as principais ferramentas usadas na análise de sobrevivência. Fazemos isto somente para a variável somente para a variável T1(xi), sendo que um tratamento análogo pode ser efetuado para a variável T2(x).
O primeiro conceito importante é a chamada de função de sobrevivência, a qual pode ser definida como:
À medida que o valor de "t" aumenta, o número de vídeos que foram tendências por mais de "t" dias diminui gradualmente. Eventualmente, chegará a zero após 24 dias, O vídeo com o maior número de aparições nas listas de tendências teve 24 aparições (veja o vídeo em https://www.youtube.com/watch?v=RjKl3lJoWjo). Portanto, para qualquer valor de "t" maior que 24, o valor da função "S(t)" será igual a zero.
O estimador da função de sobrevivência S1(t) é chamado de estimador de Kaplan - Meier o gráfico de ele é mostrado a continuação:
Na Figura 13 acima, sendo uma função escada com quedas nos valores inteiros, neste estimador, pontos sobre esta curva tem uma interpretação direta. Na figura se ressalta o ponto (7,0.5), o qual nos diz que o tempo médio de vida (Tempo médio de duração de um vídeo como tendência) é 7 dias. Outro ponto destacado na figura é o ponto (4,0.85) , o qual poderia ser interpretado dizendo que 85% dos vídeos foram tendência pelo menos 4 vezes.
Ajustamos um modelo paramétrico aos dados, escolhendo dentre uma lista de modelos comuns o que melhor ajustara aos dados e que permitiria fazer predições sobre os valores da variável T1(t) com maior precisão.
Na figura 21 acima são mostrados alguns dos modelos testados contra o estimador de Kaplan Meier, visualmente vemos que o modelo de Weibull e o modelo Gamma-generalizado apresentam um bom ajuste, isto foi conferido usando diversos critérios, e foi finalmente escolhido o modelo de Weibull, chegando no modelo
No qual temos:
Onde, identificando a variável X_{i} para i=1, ... , 8 com a linha i da seguinte tabela tabela
Este modelo pode ser usado para fazer predições individuais sobre a curva de sobrevivência de vídeos específicos, basta inserir os valores dos metadados do vídeo (Quantidade de visualizações, vídeos do canal, etc) . No seguinte gráfico são mostradas as curvas de sobrevivência para dois vídeos diferentes, um dele pertence à categoria Música e o outro a categoria 'Pets & anmals', vemos que neste caso o vídeo de música tem mais chance de continuar sendo tendência.
Muitas outras informações podem ser encontradas no trabalho, que pode ser visualizado e descarregado a continuação.