Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - стр. 27
Эти глаголы до сих пор описываются как неправильные во многих учебниках. Однако в реальности прежде всемогущий альянс постепенно распадается[75]. Два участника группы, глаголы spell и learn, стали правильными к 1800 году. С тех пор правильными стали еще четыре глагола – burn, smell, spell и spill.
Результаты дают основания полагать, что эта тенденция зародилась в Соединенных Штатах. Однако затем она распространилась и на Великобританию, где каждый год количество людей, равное числу жителей Кембриджа, начинает использовать форму burned вместо burnt [76]. По сути, в наши дни выжить в числе неправильных глаголов этой группы удалось лишь форме dwelt. Так что студент зря описывал свою злость на курсы английского языка словом burnt. На самом деле правильное слово для обозначения его злости уже звучит как burned.
Глава 3
Кабинетные лексикограферологи
К 2007 году работа с неправильными глаголами убедила нас в том, что подсчет слов позволяет отслеживать определенные, постепенно происходящие культурные изменения. Однако отслеживать неправильные глаголы просто, поскольку они встречаются достаточно часто. К примеру, слово went (прошедшее время от go – «идти») появляется примерно один раз через каждые 5000 слов или примерно один раз на 20 страниц. Вы постоянно видите его в каждой прочитанной книге. Но как только человек начинает заниматься исследованием чего-то, кроме неправильных глаголов и изучает более сложные проблемы, он рано или поздно попадает на темную сторону закона Ципфа. Часто встречающихся слов (типа went) довольно мало. Подавляющее большинство слов встречается значительно реже.
Давайте предположим, что мы пытаемся найти кое-что более загадочное, вроде снежного человека, известного в английском языке под именем Sasquatch[77]. Пугливый Sasquatch появляется в английских текстах примерно один раз на каждые 10 миллионов слов, или примерно один раз на каждую сотню книг. Выслеживать Sasquatch гораздо сложнее, чем любой привычный неправильный глагол.
Тем не менее найти Sasquatch не очень сложно. Куда реже нам встречается Loch Ness monster («Лох-несское чудовище») – лишь одно появление на каждые 200 книг. Но если вы действительно хотите протестировать, насколько ловко отыскиваете загадочных созданий, попробуйте найти Chupacabra («чупакабру») [78]. Этого кровососа впервые заметили в 1995 году в Пуэрто-Рико. О нем неизвестно практически ничего. Но мы можем сказать, что Chupacabra встречается значительно реже Sasquatch. Ее можно встретить лишь один раз на каждые 150 миллионов слов (или около 1500 книг). Невероятно начитанный человек может встретить слово Chupacabra всего один раз за всю свою жизнь. Так что вот вам еще одно упоминание – Chupacabra. Цените этот момент.
Для отслеживания столь редких слов нам нужно было получить доступ к большим данным – к миллионам книг. И для этого мы могли отправиться лишь в одно место.
Психология 29-летнего миллиардера
В 2002 году дела в компании Google шли отлично, и у одного из ее основателей, Ларри Пейджа, появилось немного свободного времени. Что было делать? В конечном счете миссия Google состояла в том, чтобы «упорядочить всю имеющуюся в мире информацию», и Пейдж знал, что в книгах информации содержится очень много.
Он задумался: насколько сложно превратить физическую библиотеку в цифровую, способную храниться в киберпространстве? Ответа на этот вопрос не знал никто. Поэтому Пейдж и Марисса Майер (работавшая тогда продукт-менеджером в