Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Год выхода: 2016
Аннотация
Книга, представленная в отрывке, охватывает множество актуальных проблем, с которыми сталкиваются ученые в эпоху больших данных. В своем изложении авторы касаются нескольких ключевых тем, связанных как с методами работы с данными, так и с проблемами доступа и юридическими аспектами, возникающими в результате цифровизации информации. Первой и важной темой книги является недостаток согласованности между традиционными научными методами и природой больших данных. Ученые обычно следуют строгим научным методам, создавая гипотезы и разрабатывая теории. Однако большие данные зачастую представляют собой разрозненные факты и измерения, которые могут содержать ошибки или пробелы. В то время как большие наборы данных могут демонстрировать корреляции между различными переменными, они часто не объясняют причинно-следственные связи, что затрудняет интерпретацию результатов. Такой разрыв в подходах поднимает вопросы о том, как правильнее всего интегрировать новые методы анализа в традиционные научные практики. Другая важная проблема заключается в доступе к данным. Крупные корпорации и правительства контролируют большинство массивов данных, что делает затруднительным для ученых получение необходимой информации. Ограничения на доступ к данным возникают из-за соображений конфиденциальности и авторских прав, что создает преграды для научных исследований. Авторы книги выделяют новое направление анализа данных — культуромику, в рамках которого изучается история с помощью цифровых технологий и количественного подхода. Ключевым инструментом, представленным в книге, является Ngram Viewer, разработанный в сотрудничестве с Google. Этот инструмент позволяет исследователям визуализировать изменения частотности слов и идей на протяжении времени. Авторы используют Ngram Viewer для изучения различных аспектов языка и культуры, в том числе изменений в английской грамматике, становления общественных идей и даже в процессе становления знаменитостей. Через количественный анализ они демонстрируют, как частота слов может отражать исторические изменения и культурные сдвиги. Еще одним интересным моментом книги является сравнение процесса выживания неправильных глаголов в английском языке с естественным отбором. Как и в биологии, чаще употребляемые глаголы имеют больше шансов на выживание, в то время как реже используемые исчезают быстрее. В ходе исследования авторы разработали математическую формулу, аналогичную периоду полураспада радиоактивных элементов, чтобы рассчитать, как частота употребления влияет на исчезновение или преобразование глаголов. Это помогает дополнительно подчеркивать важность частоты употребления в языке и его эволюции. В книге также обсуждаются юридические аспекты, связанные с правами на данные. Изучается ситуация с проектом Google Books, который оцифровывал книги и столкнулся с исками от книгоиздателей, утверждавших, что авторские права были нарушены. Эта проблема становится предвещанием для более широких вопросов, связанных с правами на данные, как в контексте больших данных. Авторы подчеркивают, что использование данных может вызывать юридические сложности, особенно когда речь идет о правах на интеллектуальную собственность. Таким образом, книга предлагает разносторонний взгляд на взаимодействие науки, технологий и культуры в контексте больших данных, подчеркивая как потенциал, так и вызовы, которые они представляют. Авторы призывают к пересмотру традиционных методов научного анализа и обращают внимание на необходимость прояснения юридических и этических вопросов, связанных с использованием данных. Камера, с которой авторы рассматривают развитие языка, историю и культуру, через призму цифровых технологий, открывает новые горизонты и инструменты для будущих исследований.