Buffer

Projeto Big data no ensino de ciências com ferramentas públicas gratuitas

O universo digital ultrapassou a marca de um zettabyte de dados (ZIKOPOULOS et al., 2013, p. 9) de e-mails, postagens nas redes sociais, imagens de telefones celulares, movimentações bancárias, colisões subatômicas registradas pelo LHC do CERN, mensagens SMS, etc (GANTZ; REINSEL, 2012). Vivemos na onda do Big Data!

Era do Big Data

Costuma-se caracterizar Big Data por cinco V’s. Os três primeiros foram definidos por Laney (2001): 

  1. Volume: como já dito, caminhamos para os zettabytes;
  2. Velocidade: se o processamento não for muito rápido, o sistema será inundado pelo fluxo de dados e, pior, os dados estarão desatualizados antes de serem processados;
  3. Variedade: aqui reside um dos maiores desafios, já que os dados são, em geral, desestruturados, porque vêm de inúmeras fontes, tais como emails, postagens em blogs e redes sociais, documentos eletrônicos em diferentes formatos, mensagens SMS, sensores, etiquetas RFID, arquivos de vídeo com codificações diversas e muitas outras;

Segundo Hurwitz et al. (2013, p. 16), ainda mais importante é o quarto V:

  1. Veracidade: é necessário que os dados sejam autênticos e façam sentido;

No entanto, vários analistas (p.ex., Beulke (2011)) argumentam que nada disso terá utilidade sem o quinto V: 

  1. Valor: é fundamental que os dados acrescentem valor ao seu utilizador, para que o enorme investimento necessário para Big Data não seja uma despesa inútil.

Dentre as muitas definições de Big Data encontradas, preferimos a seguinte, por a julgarmos mais esclarecedora para os propósitos deste trabalho: 

Big data é mais do que simplesmente uma questão de tamanho, é uma oportunidade de encontrar insights em novos e emergentes tipos de dados e conteúdos, para tornar seu negócio mais ágil e para responder a perguntas que foram anteriormente consideradas fora de seu alcance (IBM s.d.).
Big Data e o Fim da Ciência

Entusiastas do Big Data falam no “fim da teoria”, que “o Método Científico está obsoleto” (ANDERSON, 2008), que Big Data seria um novo paradigma de pesquisa, superando o Qualitativo, o Empírico, o Normativo e a Simulação (Figura 1).

Big Data como um novo paradigma
Figura 1 - Big Data como um novo paradigma.
Fonte: (ZHU, 2013)

Como lembra Schwartsman (2013), a dificuldade de obter dados sempre foi um obstáculo para a ciência e, para contorná-lo foram desenvolvidos conceitos tais como a amostragem e as ferramentas estatísticas para interpretá-los. Hoje, em vez das amostragens, Big Data pretende trabalhar com toda a população, o que leva a uma revolução na medição, que é o coração da ciência, como diz Erik Brynjolfsson (apud LOHR, 2013), diretor do Centro para Negócios Digitais da Sloan School of Management do MIT.

Tendemos a concordar com Lin (2011), especialista em Big Data, que, com esses grandes volumes de dados de que dispomos hoje, estamos (re)entrando na era de ouro do empirismo. De fato, Galileu foi inovador justamente por se concentrar nos novos fenômenos observados, os quais só foram ser explicados teoricamente por cientistas posteriores, incluindo Newton.

Acreditamos, como (SEARLS, 2013), que, para que Big Data realmente se torne uma força de mudança no mundo dos negócios, tal como aconteceu com os PC’s, a Internet e a comunicação móvel, surgirão ferramentas poderosas, acessíveis e gratuitas, sem necessidade de aprender Hadoop, MapReduce e outras tantas ferramentas e linguagens do Big Data.

Acreditamos que um um exemplo dessa classe de ferramentas gratuitas é o Google Correlate. Nele, introduz-se uma série de dados temporais ou regionais e se obtém uma lista das consultas no Google cujas frequências seguem padrões que melhor se correlacionam com os dados, segundo o coeficiente de determinação R2 (MOHEBBI et al., 2011).

Um exemplo da utilização de Big Data e seu potencial para o Ensino de Ciências é a análise pelo Google Correlate da variação semanal da atividade solar, medida pela variação do número de manchas solares de 5 jan. 2003 a 31 mar. 2013 (dos SANTOS, 2013).

Termos de busca no Google Correlate com frequências correlacionadas
Figura 2 - Termos de busca no Google com frequências correlacionadas positivamente à variação semanal
do número de manchas solares de 5 jan. 2003 a 31 mar. 2013.
Fonte: (dos SANTOS, 2013).

Conforme discutimos em (dos SANTOS, 2013), observa-se, da Figura 2, uma boa correlação para vários termos, sendo que o que melhor correlacionou (R2=0, 7523) foi 'wireless hotspot', que significa locais em que a tecnologia wi-fi está disponível. Inicialmente pode-se não ver relação causal entre as buscas por esses locais no Google e as variações do número de manchas solares ou com a atividade solar. No entanto, este é um momento frutífero de aprendizado para o estudante de Ciências: observado um fenômeno novo - a correlação -, buscar uma explicação causal para ele. Sabe-se que a atividade solar tem vários efeitos sobre nossa vida diária, dentre os quais variações nas condições de radiocomunicação, distúrbios e tempestades geomagnéticas, mudanças nas condições climáticas e auroras polares (VITINSKII, 1965). Desta forma, um mecanismo causal possível relacionando buscas por hotspots de wi-fi e as variações da atividade solar seria o de que máximos nessa atividade prejudicam o alcance dos hotspots e, por isso, usuários acostumados a utilizar determinados hotspots se veriam obrigados a procurar novos hotspots para se conectarem.

No gráfico produzido pelo Google Trends, para o termo ‘wireless hotspot’ (Figura 3), essa correlação fica razoavelmente aparente.

Comparação entre a frequência de pesquisa do termo ‘wireless
Figura 3 - Comparação entre a frequência de pesquisa do termo ‘wireless hotspot’ no Google
e a variação semanal do número de manchas solares de 5 jan. 2003 a 31 mar. 2013.
Fonte: (dos SANTOS, 2013).

Naturalmente, “correlação não implica em causação” (FIELD, 2003, p. 10), até porque não sabemos o que causou o quê (PESSOA JR., 2006). No entanto, Tufte considera que "correlação não é causalidade, mas com certeza é uma pista" (TUFTE, 2006, p. 5). É de acordo com esta visão de Tufte que acreditamos haver um potencial nestas ferramentas de big data para encontrar correlações inesperadas, e até inusitadas, que poderão, no entanto, servir de pistas para fenômenos interessantes, do ponto de vista científico. Para confirmar ou não a hipótese aventada acima para a relação entre as variações no número de manchas solares com as da frequência de busca no Google do termo 'wireless hotspot', seria necessário que os estudantes aprofundassem suas pesquisas em várias outras fontes, o que seria extremamente produtivo em termos de aprendizado de Ciências, especialmente em compreensão das noções de fenômeno, observação, medida, leis físicas, teoria, dentre outras.

Segundo (MATTMANN, 2013), para resolver os desafios do Big Data, tanto em termos científicos e técnicos quanto éticos, é necessária uma nova raça de cientistas denominada ‘cientistas de dados’ (MATTMANN, 2013). Mas, como sempre, serão precisos educadores especializados para formá-los, os chamados educational data scientists (BUCKINGHAM SHUM et al., 2013).

Mattmann (2013) afirma que novos cursos interdisciplinares sobre técnicas de Big Data são necessários não só para os cientistas da computação como também para os cientistas naturais

Segundo Shelly Farnham (DUMBILL et al., 2013), não faria sentido para uma empresa comercial contratar alguém que passou os últimos quatro anos estudando dados da saúde. Essa autora considera que o conhecimento do domínio é um aspecto muito importante do que se está à procura. Segundo ela, dizer que só o pessoal da ciência da computação se tornam bons especialistas de Big Data ou bons analistas de dados é um erro!

Da nossa experiência, observamos que produzir perguntas é um desafio maior do que obter respostas a elas com essas ferramentas do Big Data. Aqui, acreditamos, é que os profissionais de Ciências são mais necessários. 

Assim, propomos a utilização de Big Data no Ensino de Ciências, fazendo uso de ferramentas públicas e gratuitas, tais como o Microsoft GeoFlow, o Google Trends, o Google Correlate e outras que devem vir a surgir em breve. 

Nossa proposta tem embasamento no Construcionismo de Papert, o qual ressalta a importância de ferramentas, mídias e contextos no desenvolvimento humano e em como seus diálogos com artefatos promovem a autoaprendizagem e facilitam a construção de novos conhecimentos (ACKERMANN, 2001).  

O principal objetivo desta proposta é investigar a viabilidade do uso Big Data no Ensino de Ciências, tendo, como mediadores, o computador e as ferramentas públicas e gratuitas do Big Data, tais como o Microsoft GeoFlow, o Google Trends, o Google Correlate e outras que devem vir a surgir em breve. 

Mais do que meramente em capacitá-los em infraestruturas computacionais ou treiná-los análise preditiva, o objetivo das atividades pedagógicas a serem realizadas durante este projeto é propiciar ao estudante de Ciências, especialmente de Física, futuros profissionais de Ciências, uma preparação, tanto em termos técnicos como em éticos, para os desafios científicos propostos pelo Big Data ao mundo real no qual vão exercer suas profissões, além de uma melhor compreensão, embasada na prática do Big Data, sobre a construção do conhecimento físico, especialmente numa melhor compreensão das noções de fenômeno, observação, medida, leis físicas, teoria, causalidade, dentre outras.


Veja também:

palestra 'Big Data: Uma proposta didática para seu uso no ensino de Ciências'palestra 'Big Data: Uma proposta didática para seu uso no ensino de Ciências'
Uma introdução ao Big Data, suas promessas, questões éticas e mitos são discutidos. Em conclusão, é apresentada uma proposta didática para o uso de Big Data em Ensino de Ciências, fazendo uso de ferramentas públicos, gratuitos que permitem de uma forma inovadora de 'fazer ciência'.

Referências

  • ACKERMANN, E. K. Piaget’s Constructivism, Papert’s Constructionism: What’s the difference? Future of learning group publication, v. 5, n. 3, p. 438, 2001.
  • BEULKE, D. Big Data Impacts Data Management: The 5 Vs of Big Data [Blog post].
  • BUCKINGHAM SHUM, S.; HAWKSEY, M.; BAKER, R. S. J. D. et al. Educational data scientists. LAK ’13 - The Third International Conference on Learning Analytics and Knowledge. Anais.... p. 278–281, 2013.
  • dos SANTOS, R. P. Uma proposta didática para o uso de Big Data no ensino de Ciências. 2013.
  • DUMBILL, E.; LIDDY, E. D.; STANTON, J.; MUELLER, K.; FARNHAM, S. Educating the Next Generation of Data Scientists. Big Data, v. 1, n. 1, p. 21–27, 2013.
  • FIELD, H. Causation in a Physical World. In : M. J. Loux & D. W. Zimmerman (Eds.). Oxford Handbook of Metaphysics. Oxford: Oxford University Press, 2003.
  • GANTZ, J.; REINSEL, D. The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. Framingham, MA, 2012.
  • HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data for Dummies. Hoboken, NJ: John Wiley & Sons, 2013.
  • LANEY, D. 3-D Data Management: Controlling Data Volume, Velocity and Variety. Stanford, CT, 2001.
  • LINTOOL [JIMMY LIN]. rationalism vs. empiricism: with big data we’re (re-)entering the golden age of empiricism: no doubt the pendulum will swing back later. [Twitter post]. 28 Set. 2011.
  • LOHR, S. Big Data, Trying to Build Better Workers. The New York Times, 21. Apr. 2013.
  • MATTMANN, C. A. Computing: A vision for data science. Nature, v. 493, n. 7433, p. 473–475, 2013.
  • MOHEBBI, M.; VANDERKAM, D.; KODYSH, J. et al. Google Correlate Whitepaper. 2011.
  • PESSOA JR., O. F. O que é uma Causa? Cadernos de História da Ciência, v. 2, n. 2, p. 29–45, 2006.
  • SCHWARTSMAN, H. “Big Data”. Folha de São Paulo, 31. Mar. 2013.
  • TUFTE, E. R. The Cognitive Style of PowerPoint: Pitching Out Corrupts Within. Cheshire, CT: Graphics Press, 2006.
  • VITINSKII, Y. I. Solar Activity Forecasting. Report NASA TTF-289. NASA - National Aeronautics and Space Administration, 1965.
  • ZHU, J. Big Data for Social Science Research: Hypes, Myths, and Realities. Kowloon Tong, Hong Kong: City University of Hong Kong, 21. Jan. 2013.
  • ZIKOPOULOS, P. C.; DEROOS, D.; PARASURAMAN, K. et al. Harness the Power of Big Data: The IBM Big Data Platform. New York: McGraw-Hill, 2013.

Voltar a Conheça meu lado virtual!.


Citar esta página:
dos SANTOS, Renato P. . In Física Interessante. 6 Apr. 2016. Disponível em: <>. Acesso em: .

Voltar ao começo desta página

Voltar à página principal de Física Interessante


e-books Grátis


View Renato P. dos Santos's profile on LinkedIn

Renato P. dos Santos


Física Interessante no Google+



CSS válido!