Людвиг Витгенштейн в «Голубой книге» замечает по поводу «Теэтета»: Сократ не рассматривает перечисление случаев знания даже как предварительный ответ. В этом Сократ, с его точки зрения, неправ: мы прекрасно можем оперировать понятиями, не зная их точных определений. Я не могу дать технически строго определения понятия «компьютер» и тем не менее прекрасно обособляю во внешнем мире предметы, которые являются компьютерами; то же самое может быть применимо и к более абстрактным понятиям вроде «знания» или «игра». Для игр может и не быть единого определения: игры в карты, в мяч, в слова или в молчанку обладают в лучшем случае «семейным сходством», и ни одно определение не сможет вместить всех признаков, отличающих игру от других видов активности. Требование Сократа всегда исходить из определения кажется в этом свете не только излишним, но и зачастую невыполнимым. Можно привести такой пример. Алгоритмы, которые сортируют письма, не нуждаются в определении «спама». Машинное обучение работает так, как говорит Витгенштейн: мы снабжаем метками «спам» или «не спам» некоторое число наблюдений (писем), и по этим наблюдениям машина учится отличать одно от другого, извлекая релевантные признаки. Список этих признаков не задан раз и навсегда, в какой-то спам-рассылке будет слово «наследство», в другой будет слово «сглаз» — это не строгий критерий. Где-то под капотом машина перемножает некие вероятности и возвращает новую вероятность — вероятность, что данное письмо является спамом. Но есть нюанс. Откуда мы берем метки для исходного датасета? Машина может фильтровать спам, не нуждаясь в определении, но человек, который изначально расставляет метки, имеет какое-то представление о спаме — возможно, не очень ясное или недостаточно артикулированное. Сократ требует от своих собеседников упаковать это представление в определение и проверяет его примерами. В случае конфликта собеседнику доступно две стратегии: отвергнуть пример или пересмотреть определение (Бернит против Мура на стороне Сократа).Википедия, например, предлагает такое определение спама: Спам — это массовая рассылка корреспонденции (чаще всего рекламы) лицам, не выражавшим желания её получить.Если исходить из этого, большая часть моей рабочей корреспонденции — это спам, потому что я не выражала желания ее получить и вообще ей не рада. Теперь представьте, что вы дали Сократу такое определение, а он показывает вам очередное рабочее письмо с требованием СРОЧНО снова куда-то бежать и что-то заполнять. Вы, вероятно, захотите уточнить своё определение — добавить «не относящейся к профессиональным обязанностям» или «не связанной с рабочим процессом». Но в этот момент становится очевидно: без стремления к определению мы теряем возможность обсуждать понятие осмысленно, спорить о пограничных случаях, отстаивать различные трактовки и критиковать их. Именно определение — пусть даже неточное и неполное — позволяет нам не просто «размечать» датасеты, а выстраивать рациональный диалог о том, что к понятию относится, а что — нет, и почему.Витгенштейн прав в том, что мы действительно можем пользоваться словами без строгих определений; но Сократ прав в более глубоком смысле: пока мы не пытаемся осмыслить и критически обсудить значение понятия, мы не отличаемся от алгоритма машинного обучения — просто расставляем метки на примерах, не понимая, что же именно делает их примерами.
Оставить комментарий/отзыв