Название: Модельное мышление. Как анализировать сложные явления с помощью математических моделей
Автор: Скотт Пейдж
Издательство: Манн, Иванов и Фербер (МИФ)
Жанр: Математика
Серия: МИФ Научпоп
isbn: 978-5-00146-867-7
isbn:
Модель бинарной категоризации классифицирует каждый из четырех типов кредитов как выплаченный или невыплаченный. Одна модель может классифицировать мелкие кредиты как выплаченные, а крупные как невыплаченные. Другая может классифицировать кредиты студентам со специализацией «инженерное дело» как погашенные, а студентам со специализацией «гуманитарные науки» как непогашенные. Вполне вероятно, что каждая из этих моделей может быть правильной более чем в половине случаев и что эти две модели могут быть практически независимы друг от друга. Проблема возникает при попытке создать больше моделей. Существуют только шестнадцать уникальных моделей, которые соотносят четыре категории с двумя возможными исходами. Две классифицируют все кредиты как выплаченные или невыплаченные, у каждой из оставшихся четырнадцати есть полная противоположность. Всякий раз, когда модель обеспечивает правильную классификацию, ее противоположный вариант дает неправильную классификацию. Таким образом, из четырнадцати возможных моделей максимум семь могут быть правильными более чем в половине случаев. И если та или иная модель окажется правильной ровно в половине случаев, то же произойдет и с ее противоположностью.
Размерность наших данных ограничивает количество моделей, которые мы можем создать. У нас может быть максимум семь моделей. Мы не можем построить одиннадцать независимых моделей, не говоря уже о семидесяти семи. Даже если бы у нас были данные с более высокой размерностью (например, если бы мы знали возраст, средний балл, доход, семейное положение и адрес получателей кредита), категоризация, основанная на этих атрибутах, должна обеспечивать точные прогнозы. Каждое подмножество атрибутов должно быть релевантным тому, погашен ли кредит, и не связанным с другими атрибутами. В обоих случаях речь идет о сильных предположениях. Например, если между адресом, семейным положением и доходом наблюдается корреляция, то модели, в которых эти атрибуты поменяны местами, тоже должны коррелировать[44]. В случае строгой вероятностной модели независимость кажется обоснованной: разные модели порождают разные ошибки. Объяснение этой логики с помощью моделей категоризации позволяет осознать сложность построения множества независимых моделей.
Попытки формирования совокупности разноплановых, точных моделей сопряжены с аналогичной проблемой. Предположим, нам нужно создать ансамбль моделей категоризации, прогнозирующих уровень безработицы в пятистах городах среднего размера. Точная модель должна разделить города на категории таким образом, чтобы в рамках одной категории в них наблюдался схожий уровень безработицы. Кроме того, модель должна точно прогнозировать безработицу в каждой СКАЧАТЬ
44
Лу Хонг и Скотт Пейдж показывают в своей статье (Hong and Page, 2009), что независимые модели требуют уникального набора категорий. Другими словами, существует только один способ создания множества независимых прогнозов на основе модели бинарной категоризации.