Согласно Википедии:
«…раздел информатики, изучающий проблемы анализа, обработки и представления данных в цифровой форме».
Раньше этим занималась только математическая статистика, затем сюда добавили машинное обучение и то, что журналисты ошибочно называют «искусственный интеллект».
Большой разницы между «наукой о данных» и статистикой нет, но нужно же увлечь молодежь новомодными терминами, и вот уже вместо аналитика-статистика появляется вакансия «дата-сайентист».
Его задача — погружаться в бездонный океан данных о клиентах и находить инсайты для увеличения прибыли компании. Кажется, примерно так же говорили о «гроуз-хакерах» — буквально «взламывающих рост», то есть тех, кто умеет находить какую-то супер-идею, что повышает продажи в сотни раз. До гроуз-хакеров этим занимались менеджеры и директора по развитию, а потом им нашли новое название.
Однако «гроуз-хакеры» не умеют вникать в статистику и вообще больше гуманитарии. Наглядная разница между специальностями видна визуально: «гроуз-хакер» творит много красивых презентаций с точками роста, дата-сайентист рисует абстрактные картины из точек с комментариями вроде «я не использовал p-value, так как они могут приводить к false positive».
Ещё дата-сайентист умеет строить гипотезы и задавать вопросы. Такой специалист собирает большое количество неуправляемых и неструктурированных данных, преобразует их в понятный необразованным массам формат, чтобы решить конкретные задачи бизнеса заказчика исследования.
Сотрудник, претендующий на вакансию в сфере Data Science, должен знать языки программирования. Предпочтительны R и/или Python, плюс язык запросов (сойдет даже старый добрый SQL).
Далее нужно проверить знания кандидата в области статистики (ведь наука о данных и есть статистика). Методы проверки гипотез, нормальное распределение, виды группировки совокупностей и прочее математическое колдовство.
Поскольку работать предстоит с большими данными (BigData), то методы обработки будут завязаны на ИТ-технологии. Соответственно, дата-сайентист должен разбираться в машинном обучении, нейросетях, глубоком обучении. Знание мема про Германа Грефа («Блокчейн, Биг Дэйта, Машин-лёрнинг, Дип Машин-лёрнинг, Эджайл») является необходимым, но не достаточным условием!
Математическое моделирование, построение гипотез, анализ выборки, задача поставщика, метод наименьших квадратов, симплекс-метод, системы дифференциальных уравнений второго порядка — весь этот инструментал каким-то хитрым способом должен помочь компании избежать рисков и уничтожить конкурентов.
Ходят слухи, что лет через 10−20 от каждого эффективного менеджера будут требовать базовых знаний Data Science. Уже сейчас на Западе растёт спрос на руководителей со знаниями в этой области.
Правда, есть подозрения, что такую статистику создают сами дата-сайентисты, чтобы оправдать свои зарплаты (немаленькие). Поскольку всякая статистика есть разновидность лжи, то доверять таким прогнозам не стоит.
Однако не спешите нанимать дата-сайентистов на работу! Оказывается, следующий этап развития Data Science — тотальная автоматизация в принятии сложных решений. То есть скоро дата-сайентистов заменят алгоритмы, а работа с данными будет стоит копейки.
...Вот почему я предлагаю сделать к/ф "о таких разных американцах" по мотивам книжки "Ну, что тебе сказать про СэШэА?" ...