12+
текст

Объем 377 страниц

2020 год

12+

Другие версии

1 книга
Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

текст
4,1
38 оценок
449 ₽
Подарите скидку 10%
Посоветуйте эту книгу и получите 44,91 ₽ с покупки её другом.

О книге

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Просмотр других отзывов вызывает некоторое недоумение. Эти комментаторы точно читали книгу?

Итак, о чем же книга: эта книга написана президентом Британского Королевского Статистического Общества, и основная ее тема это теория вероятности и математическая статистика. Целевая аудитория – те кому нравится творчество Талеба, Млодинова, Мобуссина и других сходных авторов.

Из того, что я читал, похоже на книгу «Как лгать при помощи статистики» Дарелла Хаффа. Но гораздо глубже и современнее конечно.

В книге разбираются такие вопросы как, например, что делать если в социологическом опросе часть респондентов вообще не ответили на вопросы? Можно их просто не учитывать? (спойлер: нет, нельзя) Ну или как поступать, когда при испытаниях нового лекарства часть испытуемых по собственному желанию вышли из программы досрочно. Можно их просто вычеркнуть, как будто их и не было никогда? (спойлер: снова нет). Вот это и есть те самые «темные данные» которым посвящена книга.

Эта книга НЕ ПРО приватность и сохранность личных данных в интернете. Этот вопрос пару раз упоминается но совершенно мимоходом.

Также эта книга НЕ ПРО Big Data. Все что рассматривается тут это структурированные данные полученные от агентств вроде министерства здравоохранения или в ходе, скажем, клинического эксперимента. Big Data это обработка естественного языка, изображений, звука и видео контента. В книге про это нет ничего или почти ничего.

Этические вопросы сбора данных о людях по большей части тоже лежат за пределами данной книги. Тоже пара упоминаний вскользь о том, что такая проблема в принципе есть – не более того. Так что книга НЕ ПРО это тоже.

Ближе к самой книге: первая половина, на мой взгляд, написана просто отлично. Очень интересно, много классных вопросов и примеров. Все по теме. Вторая половина, к сожалению, огорчает. Автор начинает слишком сильно растекаться мыслями. Получается повествование просто обо всем и в результате ни о чем одновременно. Он пытается охватить сразу и астрофизику и биржевые махинации и медицинские вопросы и вообще все. В итоге повествование теряет фокус, становится расплывчатым и неконкретным.

Было бы лучше, если бы автор пошел не в ширь, а в глубь. То есть более глубоко рассмотрел поднятые им же самим вопросы. Почему промахивались социологические опросы касательно победы Трампа? Почему статистические органы рапортуют аномально низкие показатели инфляции хотя потребители отмечают повышение цен? А промахи опросов касательно брексита? Вот где не мешало бы покопаться в темных данных.

А как насчет проблем с кредитным скорингом перед кризисом 2008 года? Как получалось, что множество заемщиков невероятно низкого качества получило такие объемы кредитов? Я изучал вопрос более глубоко и знаю, что тут тоже не обошлось без изрядной доли темных данных.

В общем, за первую половину книги 5 звезд, а за вторую половину две. В итоге в среднем 3,5 звезды, которые я округлил в пользу автора до 4. Почитать все же стоит.

Мы живем в мире в котором, казалось бы, уже есть бесчисленное множество информации и знаний о каждом из нас. Но на самом деле существует иная сторона – Dark Data – «темные данные», которые хранятся, но нигде не используются! Простой пример – при текущем уровне развития искусственного интеллекта (ИИ), машинного обучения и Интернета вещей (IoT), объём хранимых в мире Dark Data через пять вырастет в 5 раз – до 91 зеттабайт при условии что общий объем Big Data будет составлять по оценкам IDC 175 зеттабайт. На разных примерах Дэвид Хэнд показывает необходимость в идентификации и выявлении этого огромного океана данных, их классификации, а так же изменения политик обработки таких данных. Острая необходимость в этом связана хотя бы с тем что

"для поглощения выбросов углекислого газа, связанных с хранением «темных данных», потребуется 7 500 000 акров леса (3,0 млн гектаров)" (c)

Готовьтесь, будет много цифр. Но прочитать это нужно всем, кто задействован в продажах или занимается распространением своего/чужого творчества. Из приведённых теорий и алгоритмов можно начать интуитивно понимать любые механизмы распространения и хранения данных.

Книга может показаться немного сложноватой, но она того стоит. Ещё рекомендую книгу «Формула» Барабаши, подобного плана. Как статистика и информатика поможет увидеть важные или опасные закономерности в повседневности.

Книга-топ. Достаточно простая, чтобы не считать её академической литературы. Но на весьма сложную и специфическую тему. Напоминает концепцию безмасштабных сетей, но уже в более практическом, конкретном смысле.

Оставьте отзыв

Войдите, чтобы оценить книгу и оставить отзыв

Описание книги

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Книга David J. Hand «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» — скачать в fb2, txt, epub, pdf или читать онлайн. Оставляйте комментарии и отзывы, голосуйте за понравившиеся.
Возрастное ограничение:
12+
Дата выхода на Литрес:
02 февраля 2021
Дата перевода:
2021
Последнее обновление:
2020
Объем:
377 стр. 13 иллюстраций
ISBN:
9785961458930
Правообладатель:
Альпина Диджитал
Формат скачивания:
epub, fb2, fb3, ios.epub, mobi, pdf, txt, zip