Hlavní Streamovací Služby AI se učí na Q * bert podvádět tak, jak to dosud žádný člověk neudělal

AI se učí na Q * bert podvádět tak, jak to dosud žádný člověk neudělal



AI dokázala podvádět to nejlepší, co lidstvo nabízí poté, co objevilo exploit v klasické arkádové hře Q * bert a běželo s ním.

Zatímco dřívější iterace AI by správně hrály Q * bert, v určitém okamžiku svého učení o tom, jak hra funguje, objevuje exploit, který jí umožňuje shromáždit šílené body. Přirozeně, jako by to dělal každý hráč na skóre, opakuje postup, aby mohl zvýšit své skóre nejefektivnějším možným způsobem.

Na níže uvedeném videu můžete vidět AI, která se pohybuje kolem platforem. Nejprve to vypadá, jako by to bezcílně skákalo mezi platformami. Místo toho, aby viděl, jak hra postupuje do dalšího kola, se Q * bert zasekne ve smyčce, kde začnou blikat všechny její platformy - zde může AI poté pokračovat v šílenství a získávat obrovské body.

PŘEČTĚTE SI DALŠÍ: Jeden z nejkontroverznějších herních záznamů byl nakonec zdiskreditován

jak přeměnit dokument na jpeg

Jak AI vyhrála Q * bert válku

Díky rekordnímu rekordu všech dob dosáhla AI díky programování algoritmu evoluční strategie neuvěřitelně vysokého skóre. Evoluční strategie (ES) se liší od obvyklého učení posílení (RL), které tradiční AI používá, protože je díky svému generačnímu učení považováno za škálovatelnější.

Každá učební smyčka se označuje jako generace a pokračuje ve své úloze, dokud není splněna stanovená podmínka (v tomto případě vysoké skóre). S každou další generací umělá inteligence absorbuje znalosti předchozí generace, a proto lépe dosahuje stejného cíle a překonává ho. Pokračujte a skončíte s AI, která je ve svém úkolu naprosto bezkonkurenční. Přesně to se tu stalo s Q * bert skóre.

Nastínil v papír , publikovaný minulý týden vědci na univerzitě ve Freiburgu v Německu, se zdá, že chyba nebyla známým množstvím. Ve skutečnosti, když nejsou příliš překvapeni, když našli chybu, je zajímavé sledovat, jak AI poté pokračovala a naučila se ji využívat pokaždé, když hrála, aby maximalizovala svůj bodovací potenciál.

PŘEČTĚTE SI DALŠÍ: Tato umělá inteligence se učí zvládat Super Mario Bros

Aby našli chybu, musel se agent nejprve naučit téměř dokončit první úroveň - nedělo se to najednou, ale pomocí mnoha drobných vylepšení, vysvětlili vědci Registrace . Máme podezření, že v určitém okamžiku výcviku narazilo jedno z řešení pro potomky na chybu a získalo mnohem lepší skóre ve srovnání se svými sourozenci, což zase zvýšilo jeho příspěvek k aktualizaci - jeho váha byla nejvyšší ve váženém průměru. To pomalu přesunulo řešení do prostoru, kde stále více potomků začalo narážet na stejnou chybu.

Neznáme přesné podmínky, za kterých se chyba objevuje; je možné, že se objeví, pouze pokud agent postupuje podle vzorce, který se zdá být neoptimální, [například když agent ztrácí čas nebo dokonce ztrácí život]. Pokud by tomu tak bylo, pak by bylo pro standardní RL extrémně těžké najít chybu: pokud použijete přírůstkové odměny, naučíte se strategie, které rychle přinášejí nějakou odměnu, místo toho, abyste se naučili strategie, které na chvíli nepřinášejí mnoho odměn, a pak najednou vyhrajte.

Viz související Šampión dragsterů Todd Rogers právě přišel o korunu po 35 letech Tato umělá inteligence se učí zvládat Super Mario Bros 1-2 po dobu 17 dnů Sledujte, jak se tato AI učí řídit v GTA V na Twitchi

Navzdory skvělým výsledkům robota však vědci neříkají, že je to případ, kdy je třeba prosazovat učení ES nad RL. Ve skutečnosti mají oba systémy své vlastní problémy a kombinace těchto dvou systémů je do značné míry považována za nejlepší variantu vpřed.

Stejná metoda ES na jiných hrách Atari nepřinesla ani zdaleka stejné pozitivní výsledky. Na druhou stranu je RL zodpovědná za rozbíjení záznamů vlevo, vpravo a na střed, včetně bití nejlepšího hráče GO na světě. ES má stále ve věcech své vlastní místo a je to vlastně způsob, jakým Nvidia provádí spoustu školení AI, protože vyžaduje větší výpočetní výkon, ale dosahuje lepších výsledků po delší dobu.

Bez ohledu na to, jakým způsobem se stane budoucnost vývoje AI, přinejmenším tento robot podvádějící systém není tak špatný jako tento nyní zneuctěný mistr světa videoher .

Zajímavé Články

Redakce Choice

MIUI stále zavírá aplikace – jak to opravit
MIUI stále zavírá aplikace – jak to opravit
Nepřehledné rozhraní MIUI je vždy neodolatelné. Poskytuje vám přístup k prvotřídnímu designu, mnoha animovaným tématům a tapetám a přizpůsobitelným funkcím. Existuje však jeden běžný problém, který MIUI zavádí do vašeho zařízení: aplikace se mohou zavřít
Samsung Galaxy S8 vs iPhone 7: Který telefon byste se měli rozhodnout?
Samsung Galaxy S8 vs iPhone 7: Který telefon byste se měli rozhodnout?
Samsung Galaxy S8 a Apple iPhone 7: oba jsou špičkovými smartphony, ale která má výhodu? S8 ještě nebyl vydán, ale stejně jako u jiných vlajkových telefonů se objevují pověsti
Jak odstranit všechny fotografie z tabletu Amazon Fire
Jak odstranit všechny fotografie z tabletu Amazon Fire
Amazon Fire Tablet je elegantní zařízení, ale jeho úložný prostor není příliš působivý. Proto potřebujete vědět, jak spravovat svůj úložný prostor, odstranit všechny nepotřebné věci a vytvořit cloudovou zálohu. Číst
Přímé odkazy ke stažení aplikace Adobe Flash Player
Přímé odkazy ke stažení aplikace Adobe Flash Player
Adobe Flash Player je něco, co musíte neustále aktualizovat. Jen před 2 dny společnost Adobe vydala nouzovou aktualizaci pro Flash Player, která má opravit kritickou zranitelnost vzdáleného spuštění kódu, kterou hackeři na webu aktivně zneužívají. I když má instalační program aplikace Flash Player automatickou kontrolu aktualizací a schopnost automatické aktualizace, vy
Jak provést opravu při spuštění v systému Windows 7
Jak provést opravu při spuštění v systému Windows 7
Výukový program pro dokončení opravy spouštění systému Windows 7. Oprava spouštění je dobrým prvním krokem při odstraňování problémů, pokud se systém Windows 7 nespouští správně.
Jak přidat PayPal do StockX
Jak přidat PayPal do StockX
Jaká je vaše metoda pro online platby na webech, jako je StockX? V dnešní době není velký problém používat debetní nebo kreditní karty online k nákupům a StockX má pověst velmi zabezpečené. Ale
6 věcí, které zabírají příliš mnoho místa na vašem PC
6 věcí, které zabírají příliš mnoho místa na vašem PC
Podívejte se na 6 věcí, které zabírají nejvíce místa na vašem PC, a co s tím dělat.