Трансформация с технической точки зрения
Еще полдюжины лет назад разница между статистической моделью (обычно логистической регрессией) и нейронной сетью была незначительной. Нейронная сеть имела немного большую способность разделения, но была черным ящиком. При аналогичном потенциале принятие того или иного метода было обусловлено предпочтением каждого сценария или типа профессионала, доступного для создания алгоритма.
Недавно нейронные сети начали поддерживать гораздо большее количество слоев (глубокое обучение), что позволило, среди прочего, эффективно и неожиданно исследовать неструктурированные данные, такие как текст, голос, изображения и видео. С постоянно растущими вычислительными мощностями появились идентификаторы изображений, синхронные переводчики, текстовые «переводчики» и другие новые разработки, удивляющие мир.
Что не изменилось и не изменится
Корпоративное построение контролируемых алгоритмов (так называемых прогнозирующих моделей) всегда было процессом, качество которого зависит от надлежащего завершения ряда шагов, которые будут существовать и дальше. Я подчеркиваю, что способность выполнять каждый шаг этого процесса эффективно и творчески имеет больше результатов в конечном алгоритме, чем используемая корректировка и метод. Они есть:
MachineLearning-пост
Интервью: Data Scientist в своем первоначальном составе не привязан к теме, для которой будет разрабатывать модель. Как правило, профессионал в определенной области, он будет создавать алгоритмы для различных корпоративных или академических процессов принятия решений. Необходимо понимание проблемы, которое достигается путем опроса профессионалов в этой области. Специалист по данным может работать от прогнозирования смертности африканских бабочек до принятия решения о публикации рекламы для пожилых людей. Универсальность, способность учиться и понимать области, не связанные с вашим первоначальным обучением, являются здесь большим отличием.
Понимание явления. Как только окружающая среда понята, необходимо изучить, что объясняет прогнозируемое явление, то есть почему это явление происходит? Какие причинно-следственные связи участвуют в этом процессе? Простой пример: если вы хотите предсказать, какая аудитория выполнит дефолт, вы должны заранее понаблюдать и ответить на некоторые вопросы. Почему человек становится неплательщиком? Когда они покупают продукт, будут ли у них уже плохие намерения? Берут ли они на себя долги, несовместимые с их доходами? Есть ли мошенничество в этом процессе? Есть ли давление со стороны продаж? Это лишь некоторые из бесчисленных вопросов, которые стоит задать. И их бесчисленное множество для каждого процесса. Профессионал, желающий создавать алгоритмы, не вставая со стула, всегда будет иметь ограниченные возможности.
Выбор соответствующей информации: Как только возможные причинно-следственные связи понятны, где находится информация, которая могла бы объяснить явление? Благодаря доступности мобильные номера франции (или не очень доступной) информации, бурному росту количества API, сканеров и т. п. для многих процессов более релевантную информацию можно найти в (раздражающем термине) больших данных, чем дома. Любопытный, настроенный и «любопытный» профессионал хорошо выполняет этот шаг.
Выборка. Вычислительная школа предполагает использование все более крупных баз данных, позволяющих корректировать гигантов, присутствующих в нескольких слоях. Тем не менее, определение переменной ответа, разделение базы данных, сертификация использования прошлых данных, разделение данных между корректировкой, проверкой и тестированием и т. д. Они требуют здравого смысла, некоторого опыта и некоторых знаний статистики.
Работа с переменными: Это единственный этап, который действительно был исключен при переходе из статистической «школы» в вычислительную «школу». Кустарный, почти художественный дизайн переменных, чрезвычайно творческий шаг, который также позволяет узнать много нового об этом явлении, больше не нужен. Имея свой статистический опыт, могу сказать, что мне не хватает этого этапа. Однако его устранение значительно повышает важность понимания этого явления.
Что изменилось и что не изменится в машинном обучении? Кто такой специалист по данным?
-
- Posts: 25
- Joined: Sun Dec 22, 2024 3:26 am