Un'intelligenza artificiale è riuscita a imbrogliare con il meglio che l'umanità ha da offrire dopo aver scoperto un exploit nel classico gioco arcade Q * bert e aver eseguito con esso.
Sebbene le precedenti iterazioni dell'IA riproducessero correttamente Q * bert, a un certo punto del suo apprendimento di come funziona il gioco, scopre un exploit che gli consente di accumulare punti folli. Naturalmente, come farebbe qualsiasi giocatore di caccia al punteggio, ripete il processo in modo da poter aumentare il suo punteggio nel modo più efficace possibile.
Puoi vedere l'IA che si fa strada tra le piattaforme nel video qui sotto. All'inizio, sembra che stia saltando senza meta tra le piattaforme. Invece di vedere il progresso del gioco al round successivo, Q * bert rimane bloccato in un loop in cui tutte le sue piattaforme iniziano a lampeggiare: è qui che l'IA può quindi andare in una frenesia da punteggio accumulando punti enormi.
LEGGI SUCCESSIVO: Uno dei record di giochi più controversi è stato finalmente screditato
quando è uscito l'iPhone 6?
Come l'IA ha vinto la guerra Q * bert
Dopo aver battuto il record di tutti i tempi per il titolo, l'IA ha ottenuto un punteggio incredibilmente alto grazie alla programmazione dell'algoritmo della sua strategia di evoluzione. Le strategie di evoluzione (ES) differiscono dal consueto apprendimento per rinforzo (RL) che l'IA tradizionale utilizza in quanto è vista come più scalabile grazie al suo apprendimento generazionale.
Ogni ciclo di apprendimento viene indicato come una generazione e continua il suo compito fino a quando non viene soddisfatta una determinata condizione (in questo caso, un punteggio elevato). Ad ogni generazione successiva, l'IA assorbe la conoscenza della generazione precedente e quindi è migliore nel raggiungere lo stesso obiettivo e nel superarlo. Continua e ti ritroverai con un'intelligenza artificiale che non ha assolutamente rivali nel suo compito. Questo è esattamente quello che è successo qui con il punteggio Q * bert.
Delineato in la carta , pubblicato la scorsa settimana dai ricercatori dell'Università di Friburgo, in Germania, sembra che il bug non fosse una quantità nota. In effetti, anche se non sono troppo sorpresi di trovare il bug, è interessante vedere come l'IA è andata avanti e ha imparato a sfruttarlo ogni volta che ha giocato per massimizzare il suo potenziale di punteggio.
LEGGI SUCCESSIVO: Questa intelligenza artificiale ha imparato a padroneggiare Super Mario Bros
Per trovare il bug, l'agente ha dovuto prima imparare a completare quasi il primo livello - questo non è stato fatto in una volta ma utilizzando molti piccoli miglioramenti, hanno spiegato i ricercatori Il registro . Sospettiamo che a un certo punto dell'addestramento una delle soluzioni della prole abbia riscontrato il bug e abbia ottenuto un punteggio molto migliore rispetto ai suoi fratelli, il che a sua volta ha aumentato il suo contributo all'aggiornamento: il suo peso era il più alto nella media ponderata. Questo ha spostato lentamente la soluzione nello spazio in cui sempre più prole hanno iniziato a incontrare lo stesso bug.
Non conosciamo le condizioni precise in cui compare il bug; è possibile che appaia solo se l'agente segue uno schema che sembra non ottimale, [ad esempio quando l'agente perde tempo, o addirittura perde una vita]. Se così fosse, sarebbe estremamente difficile per RL standard trovare il bug: se usi premi incrementali imparerai strategie che danno rapidamente qualche ricompensa, piuttosto che strategie di apprendimento che non producono molte ricompense per un po 'e poi improvvisamente vinci alla grande.
Vedi correlati Il campione di Dragster Todd Rogers ha appena perso la corona dopo 35 anni Questa intelligenza artificiale ha imparato a padroneggiare Super Mario Bros 1-2 da 17 giorni Guarda questa intelligenza artificiale mentre impara a guidare in GTA V su Twitch
Tuttavia, nonostante i meravigliosi risultati del bot, i ricercatori non stanno dicendo che questo è un caso per sostenere l'apprendimento ES rispetto a RL. In effetti, entrambi i sistemi hanno i loro problemi e una combinazione dei due è ampiamente considerata come l'opzione migliore per andare avanti.
Lo stesso metodo ES su altri giochi Atari non ha portato neanche lontanamente gli stessi risultati positivi. D'altra parte, RL è responsabile di battere i record a sinistra, a destra e al centro, incluso battere il miglior giocatore GO del mondo. L'ES ha ancora il suo posto nelle cose, ed è in realtà il modo in cui Nvidia esegue gran parte dell'addestramento AI perché richiede più potenza di calcolo ma ottiene risultati migliori per un periodo di tempo più lungo.
Indipendentemente da come diventerà il futuro per lo sviluppo dell'IA, almeno questo bot che imbroglia il sistema non è così male come questo ora campione del mondo di videogiochi caduto in disgrazia .