Искусственный интеллект, HRTech и здравый смысл
На прошлой неделе мне довелось поучаствовать в качестве члена жюри HRtech хакатоне.
В одном из кейсов, на основе данных одной из крупнейших розничных сетей, нужно было решить задачу прогнозирования эффективности сотрудников. Были даны данные о возрасте, поле, семейном положении и количестве детей сотрудника, магазине в котором он работает и его эффективности по дням (количестве пробитых за смену чеков).
На выходе две команды как под копирку предложили автоматизированный инструмент с использованием технологий машинного обучения, предлагавший подобрать для сотрудника оптимальное место работы (на основании вычислений, показывающих что наиболее эффективны с точки зрения пробитых чеков в магазине X разведенные женщины 31 года с 2 детьми). Все это с симпатичным интерфейсом с интерактивными точками на Яндекс-карте.
Эти решения были продемонстрированы без особенных оговорок про возможности реального применения, разве что с комментариями, что было бы больше данных, модель была бы точнее. Обсуждались разные варианты (линейная и нелинейная регрессия, деревья решений и т.п.), но не качество исходных гипотез и данных.
Возникает риторический вопрос - можно ли на основании таких данных построить валидную прогнозную модель? Можно ли считать эффективность по количеству пробитых чеков, без учета дня недели, времени смены и суммы чека? Насколько просчитанные алгоритмами корреляции подлинны, забыты ли принципы что correlation это не causation и т.п.?
Понятно, что речь идет всего лишь о хакатоне и небольшом математическом упражнении на тему HR. Возникает вопрос - как скоро подобные алгоритмы начнут влиять на формирование карьерных маршрутов сотрудников, отбирать шорт-листы на собеседование и т.п. И будут ли эти алгоритмы построены только на правильной математике или еще и на правильной аналитике, которая не позволит строить выводы на данных, противоречащих здравому смыслу?
Особенно интересным этот вопрос становится в контексте начала действия в 2018 году в ЕС GDPR - закона об обработке персональных данных. Одно из положений GDPR предполагает право человека на получение объяснений действиям алгоритмов, обрабатывающих его данные (например, нейронная сеть решила выдать ваше резюме на вакансию не на первой странице поиска, а на последней, или вам отказали в выдаче кредита). А многие технологии, особенно deep machine learning, не особенно позволяют объяснить почему обученная на миллионах записей модель искусственного интеллекта выдала тот или иной результат. Возможно и наше законодательство учтет европейский опыт в какой-то момент.
И тогда возникнет вопрос, а понимаем ли мы как работают алгоритмы искусственного интеллекта, которые мы активно начинаем обсуждать и внедрять. И можем ли мы объяснить их поведение...
В одном из кейсов, на основе данных одной из крупнейших розничных сетей, нужно было решить задачу прогнозирования эффективности сотрудников. Были даны данные о возрасте, поле, семейном положении и количестве детей сотрудника, магазине в котором он работает и его эффективности по дням (количестве пробитых за смену чеков).
На выходе две команды как под копирку предложили автоматизированный инструмент с использованием технологий машинного обучения, предлагавший подобрать для сотрудника оптимальное место работы (на основании вычислений, показывающих что наиболее эффективны с точки зрения пробитых чеков в магазине X разведенные женщины 31 года с 2 детьми). Все это с симпатичным интерфейсом с интерактивными точками на Яндекс-карте.
Эти решения были продемонстрированы без особенных оговорок про возможности реального применения, разве что с комментариями, что было бы больше данных, модель была бы точнее. Обсуждались разные варианты (линейная и нелинейная регрессия, деревья решений и т.п.), но не качество исходных гипотез и данных.
Возникает риторический вопрос - можно ли на основании таких данных построить валидную прогнозную модель? Можно ли считать эффективность по количеству пробитых чеков, без учета дня недели, времени смены и суммы чека? Насколько просчитанные алгоритмами корреляции подлинны, забыты ли принципы что correlation это не causation и т.п.?
Понятно, что речь идет всего лишь о хакатоне и небольшом математическом упражнении на тему HR. Возникает вопрос - как скоро подобные алгоритмы начнут влиять на формирование карьерных маршрутов сотрудников, отбирать шорт-листы на собеседование и т.п. И будут ли эти алгоритмы построены только на правильной математике или еще и на правильной аналитике, которая не позволит строить выводы на данных, противоречащих здравому смыслу?
Особенно интересным этот вопрос становится в контексте начала действия в 2018 году в ЕС GDPR - закона об обработке персональных данных. Одно из положений GDPR предполагает право человека на получение объяснений действиям алгоритмов, обрабатывающих его данные (например, нейронная сеть решила выдать ваше резюме на вакансию не на первой странице поиска, а на последней, или вам отказали в выдаче кредита). А многие технологии, особенно deep machine learning, не особенно позволяют объяснить почему обученная на миллионах записей модель искусственного интеллекта выдала тот или иной результат. Возможно и наше законодательство учтет европейский опыт в какой-то момент.
И тогда возникнет вопрос, а понимаем ли мы как работают алгоритмы искусственного интеллекта, которые мы активно начинаем обсуждать и внедрять. И можем ли мы объяснить их поведение...