Resumen De Algoritmos Para Vivir. Коллектив авторов
Чтение книги онлайн.

Читать онлайн книгу Resumen De Algoritmos Para Vivir - Коллектив авторов страница 3

СКАЧАТЬ problema del bandido multi-brazo se llama como un juego de palabras del bandido de un brazo, que es una máquina tragaperras de casino. Un jugador de casino entrará sin saber cuál de las máquinas es lucrativa y cuáles son sumideros de dinero. Para maximizar las ganancias, él/ella va a tirar de los brazos en varias máquinas para probarlas (explorando) y él/ella favorecerá las máquinas más prometedoras que encuentre (explotando).

      Jugando 15 veces entre dos máquinas, el jugador intenta una, gana 9 veces y pierde 6 veces. Juega la otra, paga una vez y no lo hace la segunda vez. El objetivo del jugador es averiguar qué es más prometedor. Dividiendo las ganancias por el número de tiradas se obtiene el "valor esperado" de la máquina. La primera máquina tiene un 60%, mientras que la segunda solo tiene un 50%. Sin embargo, el jugador debe evaluar más que eso, ya que dos tiradas no son suficientes.

      La gente tiene la tendencia a tratar las decisiones como si estuvieran aisladas. Se centran en encontrar el resultado que posea el mayor valor esperado. Pensar en todas las decisiones en lugar de solo en la siguiente requerirá lo que se conoce como la compensación entre exploración y explotación. En el caso del problema del casino, depende de cuánto tiempo el jugador tiene la intención de permanecer en el casino.

      El matemático Herbert Robbins ha demostrado que hay una estrategia simple que puede ayudar con estas decisiones —este es el algoritmo Ganar-Quedarse, Perder-Cambiar—. Dice que hay que elegir un brazo al azar y tirar de él mientras que valga la pena. Si no lo hace, entonces el jugador debe cambiar a la otra máquina. Ha demostrado en 1952 que esta estrategia da resultados que son mejores que el azar.

      Sin embargo, este algoritmo tiene algunas fallas. Cambiar de brazo cada vez que uno de los brazos falla puede ser precipitado. Experimentar algunas decepciones no significa que tengas que dejar ir una opción que de otra manera sería buena. Tampoco considera el intervalo de tiempo. Si la última comida que comiste en un restaurante no te gustó, el algoritmo dicta que debes encontrar otro lugar para cenar aunque estés a punto de dejar la ciudad. Debido a esto, el bandido multiarmado está esencialmente sin resolver, pero aún así proporciona algunas ideas sobre cómo resolver los predicamentos.

      Конец ознакомительного фрагмента.

      Текст предоставлен ООО «ЛитРес».

      Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.

      Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.

/9j/4AAQSkZJRgABAQEAtgC2AAD/2wBDAAEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQICAQECAQEBAgICAgICAgICAQICAgICAgICAgL/2wBDAQEBAQEBAQEBAQECAQEBAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgL/wgARCAjKBdwDAREAAhEBAxEB/8QAHgABAAIBBQEBAAAAAAAAAAAAAAECCQMGBwgKBQT/xAAcAQEAAgMBAQEAAAAAAAAAAAAABgcBBAUDAgj/2gAMAwEAAhADEAAAAcU53NAJBYAFgCwAJBJIBJIJJABJIBJIABIBJIABIJABJIAAAJAAAJJAAAAAAAAAAAAAAAAAAAAIIAAAIAAAAIIABBAAAKgAgAAggEEAAggEEAAqAQAQQCCACCAQD5ZifMuhnHJLguSCSxJYsAWLAuSAWLAsSSCSSxJJJIBJYkFiSQASWJBJJJIABJJJIAJJJBIAAAABIAJAAAAAAAIAAIAAAAAIIIBABBBAIAAKkEAggggAFSCAVIIAIKkEEFQCCpBBUgEFSCCpAIKkFSoBUqQUNpnjxMuZ
СКАЧАТЬ