понедельник, 8 мая 2017 г.

Теорема Байеса. Часть 1

              Разрабатывая несколько интересных алгоритмов для моего нового проекта, нужно было решать задачи опираясь на не совсем классические математические теории. Одна из них теорема Байеса, в основе теории заложено то, что при условии если произошло какое либо событие можно определить вероятность совершения последующего зависимого события. Это скажем так некая основа нейросетей, хотя это и есть Байесовская нейронная сеть, но не о ней в этой статье, а немного о других важных вещах.



              Итак сама теорема выглядит примерно так, точнее вывод из теоремы для большого числа вероятностей:


              Суть теории я не буду разжёвывать, она сама по себе чиста как человеческая логика , но не взрослого, а совсем юного исследователя. И уже во взрослом организме начинает обрастать тысячами нелинейных зависимостей и вероятностей которые приобретаются на уровне нейронов мозга, так называемый приобретенный опыт. Но есть еще генетический код, где много чего заложено, чего нельзя объяснить математически.
              А для чего вообще нужно это читать и знать ? Дело в том пока вы учитесь чертить в различном ПО САПР, в мире технологий происходит новый виток революционных технологий. И одна из технологий это нейросети, генетические алгоритмы и для анализа входящей информации используют не четкие правила, а вероятности. Задания вероятностей для даже очень простых задач очень трудоемкий процесс. 
             Рассмотрим одну из задач для понимания что же такое байесовское распределение вероятностей, для опыта возьмем НИР выполненный МГСУ, точнее не НИР, а отчет. На основе этой работы были сделаны выводы как в работе так и многими вендорами , одно из самых громких заявлений , это возможность экономить 30% на себестоимости строительства. Цифра мягко сказать голословная, она ..... ладно не буду материться. Теперь давайте возьмем из работы статистический данные и применим теорему Байеса:

ROI- эффективность инвестиций.
1. 42% - не отслеживают показатель ROI, применим тут 0% эффективности.
2. 24% - значительное увеличение , тут трудно сказать сколько в процентах составляет "значительное" но так как было оговорено 30%, то примем 30% как численный показатель "значительности" 
3. 26% говорят о незначительном росте, "незначительный" очень размытое значение , применим под "незначительным" 1%.
4. 8% говорят о снижении, для меня лично снижение это 6%, 5% это статистическая погрешность некой области.

              Давайте выясним каков процент существования 30% эффективности инвестиций согласно Байеса. Для этого заменим для понимания ROI -  яблоками, точнее сколько процентов опрощенных заработали яблок или потеряли, а проценты опрощенных заменим людьми :
1. 42 человека заработали 0 яблок
2. 24 человек заработали +30 яблок 
3. 26 человек заработали +1 яблоко
4. 8 человек заработали -6 яблок 
             Сумма всех участников 42+24+26+8=100 человек , сумма всех яблок 25 штук, вполне себе неплохая сумма яблок на 100 человек, но в силу наличия у одного из групп значительного перевесе в яблоках давайте выясним какова вероятность стать настолько успешной группой обладателей 30 яблок, применяем теорию Байеса:

(24*30/100) / ( (42*0/100)+(24*30/100)+(26*1/100)-(8*6/100))=1.03%

            Даже если исключить из вероятности группу с 0% и пересчитать количество принявших в опросе , результат не изменится, можете проверить.

            Вероятность  стать обладателем 30 яблок составляет 1.03%, как видно это не вкладывается в утверждение о 30% эффективности каждого желающего. Но даже 1.03% не правдивая цифра так как есть вероятность существования групп людей и с 20 яблаками и 5 и 13 и -30 и тд. и степень правдивости данной статистической выборки стремится к нулю, а с какой вероятностью каждый может теперь посчитать сам, используя свои собственный данные из опыта.
            Поэтому что-бы не сесть в лужу анализируя данные, крупные компании такие как Apple, Microsoft, Fasebook, Alphabet и многие другие используют различные методы анализа данных, теорема Байеса одна из них.
           Но не стоит так просто упускать из виду  Байеса, теорема в данный момент активно используется при просчете комбинаций в покере, рулетке , блэкджек и почти всех азартных играх и не только , футбол, баскетбол, хоккей, бейсбол, рынки ценных бумаг и бесконечное число областей науки и техники. 
          Самое значительное это то ,что Байес открыл новую дверь к созданию генетических алгоритмов, то есть искусственного интеллекта. Почти все стартапы которые скупают выше перечисленные корпорации в той или иной степени используют байесовские классификаторы. Лично у меня пока проблема с производительностью при работе с классификаторами, но я думаю за 84 дня я решу данную проблему.

           P.S. Примечательно что сам Томас Байес не был ученым математиком, он ей просто увлекался и умер священником в далеком 1761 году ни разу не опубликовав ни одной из своих работ. Свою теорему он написал на клочке листка бумаги и не придав ей значимости просто закинул в далекий угол. После смерти Байеса иной математик случайно наткнулся на его теорию (разбирая его записи) и опубликовал ее в королевском научном сообществе в 1763. Но даже в далеком 1763 году, все равно не все смогли оценить всю роль данной теории в теории вероятности , так как для полноты всех красок тогдашним ученым не хватало вычислительной мощности современной техники.

13 комментариев:

  1. "26% говорят о незначительном росте, "незначительный" очень размытое значение , применим под "незначительным" 1%."

    Далее Вы пишите: "для меня лично снижение это 6%, 5% это статистическая погрешность некой области."

    Почему тогда длоя третьей группы (26%) Вы не взяли +6% ? Так было бы веселее, вероятность стать обладателем 30 яблок составит тогда 0,87%

    А вообще интересно. Жду продолжения.

    ОтветитьУдалить
    Ответы
    1. ну я подумал что 1% слишком мало и решил все же взять все в сторону "максимального" увеличения, поэтому принял окончательно 6%.

      Удалить
  2. Этот комментарий был удален автором.

    ОтветитьУдалить
    Ответы
    1. http://nopriz.ru/upload/iblock/2cc/4.7_bim_rf_otchot.pdf

      Удалить
    2. Нашел и просмотрел. Статистика используемая в статье, для Сингапура. Для России такой статистики нет и не предвидится...

      Кстати, согласно выводам Вашей статьи, приниматься за внедрение BIM все же стоит, т.к. шансов уйти в убыток -0.07% т.е. невозможно. Не могли бы Вы пояснить этот момент, ведь 8% все же признались в убытке?

      Удалить
    3. В СНГ вообще увы кто в лес кто по дрова, тут какую либо статистику вести сложно в силу того что никто не скажет правду, многие кто занимается информационными технологиями держатся за места и не признают своих ошибок, а у учетом большого числа различных ответвлений в "вере" получается вполне анархичная ситуация.
      А по поводу нужно или не нужно и убыточности, мое мнение такое , в массовом применении BIM приводит к убыткам со всех точек зрения, и под BIM я имею ввиду не 3д проектирование, а намного большеe. Прибыль будет только у тех кто использует базы данных, например крупнопанельное строительство или сборномонолитное по типу КУБ, а все кто не связан с этим только убытки. А если под BIM понимать просто 3D проектирование то тут в принципе просто ноль (не все же строят и проектируют стадионы), но при наличии достаточного количества фанатичных исполнителей.

      Удалить
  3. привсём уважении, прикладывать формулу и не писать в чем её смысл или что значат знаки в ней - пидарство.

    ОтветитьУдалить
    Ответы
    1. Ваши гендерные предпочтения оставьте при себе. Если есть возможность пользоваться гуглом, то первая ссылка ведет на статью википедии где есть все разъяснения.

      Удалить
    2. Вы же прекрасно понимаете, какое это свинство по отношению к собственным читателям. Не при чем тут гендер, а "пидарство" не в буквальном смысле. Зачем читать ваш блог и идти в гугл, если можно сразу идти в гугл, в обход этого посылания? Вы же не пишете для того чтобы остаться непонятым и за одно послать тех кто вас читает.

      Удалить
    3. Так и идите в гугл. Зачем вы сюда пришли тогда? Вас никто не держит.

      Удалить
    4. Георгий Краснокутский, я, что бы понять что из себя представляют входящие значения прочитал сначала википедию, а потом книгу по теории вероятности и не могу ее сюда переписывать целиком, а объяснять своими словами - не имею соответствующего образования и компетенции. Неужели вы всегда просите во всех случаях подробных деталей ? вы когда в магазин приходите узнаете что входит в стоимость каждого товара ?

      Удалить

Поиск по этому блогу