O universo digital ultrapassou a marca de um zettabyte de dados (ZIKOPOULOS et al., 2013, p. 9) de e-mails, postagens nas redes sociais, imagens de telefones celulares, movimentações bancárias, colisões subatômicas registradas pelo LHC do CERN, mensagens SMS, etc (GANTZ; REINSEL, 2012). Vivemos na onda do Big Data!
Costuma-se caracterizar Big Data por cinco V’s. Os três primeiros foram definidos por Laney (2001):
Segundo Hurwitz et al. (2013, p. 16), ainda mais importante é o quarto V:
No entanto, vários analistas (p.ex., Beulke (2011)) argumentam que nada disso terá utilidade sem o quinto V:
Dentre as muitas definições de Big Data encontradas, preferimos a seguinte, por a julgarmos mais esclarecedora para os propósitos deste trabalho:
Big data é mais do que simplesmente uma questão de tamanho, é uma oportunidade de encontrar insights em novos e emergentes tipos de dados e conteúdos, para tornar seu negócio mais ágil e para responder a perguntas que foram anteriormente consideradas fora de seu alcance (IBM s.d.).
Entusiastas do Big Data falam no “fim da teoria”, que “o Método Científico está obsoleto” (ANDERSON, 2008), que Big Data seria um novo paradigma de pesquisa, superando o Qualitativo, o Empírico, o Normativo e a Simulação (Figura 1).
Como lembra Schwartsman (2013), a dificuldade de obter dados sempre foi um obstáculo para a ciência e, para contorná-lo foram desenvolvidos conceitos tais como a amostragem e as ferramentas estatísticas para interpretá-los. Hoje, em vez das amostragens, Big Data pretende trabalhar com toda a população, o que leva a uma revolução na medição, que é o coração da ciência, como diz Erik Brynjolfsson (apud LOHR, 2013), diretor do Centro para Negócios Digitais da Sloan School of Management do MIT.
Tendemos a concordar com Lin (2011), especialista em Big Data, que, com esses grandes volumes de dados de que dispomos hoje, estamos (re)entrando na era de ouro do empirismo. De fato, Galileu foi inovador justamente por se concentrar nos novos fenômenos observados, os quais só foram ser explicados teoricamente por cientistas posteriores, incluindo Newton.
Acreditamos, como (SEARLS, 2013), que, para que Big Data realmente se torne uma força de mudança no mundo dos negócios, tal como aconteceu com os PC’s, a Internet e a comunicação móvel, surgirão ferramentas poderosas, acessíveis e gratuitas, sem necessidade de aprender Hadoop, MapReduce e outras tantas ferramentas e linguagens do Big Data.
Acreditamos que um um exemplo dessa classe de ferramentas gratuitas é o Google Correlate. Nele, introduz-se uma série de dados temporais ou regionais e se obtém uma lista das consultas no Google cujas frequências seguem padrões que melhor se correlacionam com os dados, segundo o coeficiente de determinação R2 (MOHEBBI et al., 2011).
Um exemplo da utilização de Big Data e seu potencial para o Ensino de Ciências é a análise pelo Google Correlate da variação semanal da atividade solar, medida pela variação do número de manchas solares de 5 jan. 2003 a 31 mar. 2013 (dos SANTOS, 2013).
Conforme discutimos em (dos SANTOS, 2013), observa-se, da Figura 2, uma boa correlação para vários termos, sendo que o que melhor correlacionou (R2=0, 7523) foi 'wireless hotspot', que significa locais em que a tecnologia wi-fi está disponível. Inicialmente pode-se não ver relação causal entre as buscas por esses locais no Google e as variações do número de manchas solares ou com a atividade solar. No entanto, este é um momento frutífero de aprendizado para o estudante de Ciências: observado um fenômeno novo - a correlação -, buscar uma explicação causal para ele. Sabe-se que a atividade solar tem vários efeitos sobre nossa vida diária, dentre os quais variações nas condições de radiocomunicação, distúrbios e tempestades geomagnéticas, mudanças nas condições climáticas e auroras polares (VITINSKII, 1965). Desta forma, um mecanismo causal possível relacionando buscas por hotspots de wi-fi e as variações da atividade solar seria o de que máximos nessa atividade prejudicam o alcance dos hotspots e, por isso, usuários acostumados a utilizar determinados hotspots se veriam obrigados a procurar novos hotspots para se conectarem.
No gráfico produzido pelo Google Trends, para o termo ‘wireless hotspot’ (Figura 3), essa correlação fica razoavelmente aparente.
Naturalmente, “correlação não implica em causação” (FIELD, 2003, p. 10), até porque não sabemos o que causou o quê (PESSOA JR., 2006). No entanto, Tufte considera que "correlação não é causalidade, mas com certeza é uma pista" (TUFTE, 2006, p. 5). É de acordo com esta visão de Tufte que acreditamos haver um potencial nestas ferramentas de big data para encontrar correlações inesperadas, e até inusitadas, que poderão, no entanto, servir de pistas para fenômenos interessantes, do ponto de vista científico. Para confirmar ou não a hipótese aventada acima para a relação entre as variações no número de manchas solares com as da frequência de busca no Google do termo 'wireless hotspot', seria necessário que os estudantes aprofundassem suas pesquisas em várias outras fontes, o que seria extremamente produtivo em termos de aprendizado de Ciências, especialmente em compreensão das noções de fenômeno, observação, medida, leis físicas, teoria, dentre outras.
Segundo (MATTMANN, 2013), para resolver os desafios do Big Data, tanto em termos científicos e técnicos quanto éticos, é necessária uma nova raça de cientistas denominada ‘cientistas de dados’ (MATTMANN, 2013). Mas, como sempre, serão precisos educadores especializados para formá-los, os chamados educational data scientists (BUCKINGHAM SHUM et al., 2013).
Mattmann (2013) afirma que novos cursos interdisciplinares sobre técnicas de Big Data são necessários não só para os cientistas da computação como também para os cientistas naturais.
Segundo Shelly Farnham (DUMBILL et al., 2013), não faria sentido para uma empresa comercial contratar alguém que passou os últimos quatro anos estudando dados da saúde. Essa autora considera que o conhecimento do domínio é um aspecto muito importante do que se está à procura. Segundo ela, dizer que só o pessoal da ciência da computação se tornam bons especialistas de Big Data ou bons analistas de dados é um erro!
Da nossa experiência, observamos que produzir perguntas é um desafio maior do que obter respostas a elas com essas ferramentas do Big Data. Aqui, acreditamos, é que os profissionais de Ciências são mais necessários.
Assim, propomos a utilização de Big Data no Ensino de Ciências, fazendo uso de ferramentas públicas e gratuitas, tais como o Microsoft GeoFlow, o Google Trends, o Google Correlate e outras que devem vir a surgir em breve.
Nossa proposta tem embasamento no Construcionismo de Papert, o qual ressalta a importância de ferramentas, mídias e contextos no desenvolvimento humano e em como seus diálogos com artefatos promovem a autoaprendizagem e facilitam a construção de novos conhecimentos (ACKERMANN, 2001).
O principal objetivo desta proposta é investigar a viabilidade do uso Big Data no Ensino de Ciências, tendo, como mediadores, o computador e as ferramentas públicas e gratuitas do Big Data, tais como o Microsoft GeoFlow, o Google Trends, o Google Correlate e outras que devem vir a surgir em breve.
Mais do que meramente em capacitá-los em infraestruturas computacionais ou treiná-los análise preditiva, o objetivo das atividades pedagógicas a serem realizadas durante este projeto é propiciar ao estudante de Ciências, especialmente de Física, futuros profissionais de Ciências, uma preparação, tanto em termos técnicos como em éticos, para os desafios científicos propostos pelo Big Data ao mundo real no qual vão exercer suas profissões, além de uma melhor compreensão, embasada na prática do Big Data, sobre a construção do conhecimento físico, especialmente numa melhor compreensão das noções de fenômeno, observação, medida, leis físicas, teoria, causalidade, dentre outras.
Veja também:
Voltar a Conheça meu lado virtual!.
Voltar ao começo desta página
Voltar à página principal de Física Interessante