Anders Tunevi
Swedenborgsgatan 21
S-11827 Stockholm
Sweden
tel: +4687202267
mob: +46705683513
mail: anders@anderstunevi.se
***********************
Lära hur ett objekt fungerar genom experiment – två metoder
Abstrakt
Detta projekt handlar om hur man lär sig hur ett objekt fungerar genom experiment. En agent arbetar i en mikrovärld där det finns ett objekt som han kan experimentera med. Objektet simuleras av en framåtsökande mekanism applicerad på regler. Två metoder för inlärning används. Båda metoderna fungerar för en beskriven klass av objekt, som t ex att det finns ett ändligt antal observationer och åtgärder,att varje läge kan nås ifrån varje läge samt att det är visuellt deterministiskt. Den första automatiserade metoden är avsedd för enkla objekt och är generell. Den fungerar enligt följande: A: Experimentera och spara erfarenheter i tracer: Den åtgärd som utförts minst antal gånger i det aktuella läget väljs. Fortsätt tills samtliga åtgärder utförts i samtliga lägen. B: Tracerna ifrån A transformeras till exempel. C: Regler lärs ifrån exemplen från B. Ett problem med denna metod är att det krävs ett stort antal experiment när objekten blir komplexa. Den andra delvis automatiserade metoden bygger på att man startar med ett antaganden om objektet samt successivt utnyttjar den kunskap som kommer fram under lärande processen: I det aktuella fallet så görs följande antagande: Det finns två grupper av observationer: gruppA som enbart är resultat av en åtgärd samt gruppB som är en följd av en eller flera observationer ifrån gruppA. Utifrån detta så fungerar det enligt följande: 1. Experimentera och spara erfarenheter. Välj den åtgärd som utförts minst antal gånger. Fortsätt till inga nya observationer kommer. 2: Objekt och åtgärder ifrån 1 delas in i moduler. 3: Modulerna ifrån 2 används för att skapa regler med premiss = åtgärd och slutsats =observation ifrån gruppA plus regler med premiss en och slutsats ifrån grupp A. 4: Regler ifrån 3 används till att ta fram fram möjliga lägen = kombinationer av observationer ifrån gruppA. 5: Lägen i 4 testas och erfarenheter samlas in. 6: Erfarenheterna ifrån 5 används för att generera regler r ifrån gruppA till gruppB. 7: Reglerna ifrån 3 och 6 läggs ihop. Metoderna har utvärderats på ett enkelt och ett komplext objekt enligt följande: 1. Reglerna i objektet har bytts ut mot de inlärda reglerna. För bägge metoderna så har resultatet varit ett objekt med samma beteende som det ursprungliga objektet. 2. Antalet experiment som använts har räknats. Metod två kräver ett mindre antal experiment än metod ett och är därför mer lämplig när objekten är komplexa.
Learning how an object functions by experimentation – two methods
Abstract
This project is about how to learn how an object functions by experimentation. An agent is working in a micro world where there exists an object which he can experiment with. The object is simulated by a forward chaining mechanism applied on rules. Two methods of learning have been used. Both methods are usable for a described class of objects e.g. where there are a finite number of observations and actions, every state is reachable from every state and it is visually deterministic. The first automatic method is supposed to be used for simple objects and is general. It works in the following phases: A: Experiment and saving experiences in traces. Select the action carried out the fewest times in the current state. Continue until every actions carried out in all states. B: Transform the traces from A into examples. C: Use the examples from B to make rules. A problem with this method is that it requires a large number of experiments when objects become complex. The second partly automatic method starts with an assumption and is supposed to use the knowledge learnt during the learning process to learn more. In the actual case the following assumption is made: There are two groups of observations: GroupA solely the result of one action and groupB which is a consequence of one or more observations from groupA. Based in this it works as follows: 1. Experiment and saving experiences. Select the action carried out the fewest times. Continue until no new observations come. 2. Observations and actions found in 1 are divided into modules. 3. The modules from 2 are used to create rules with premise = action and conclusion from groupA plus rules with premise and conclusion from groupA 4. Rules from 3 are used to find possible states (= combinations of observations from groupA). 5. States from 4 are tested and experiences gathered. 6. Experiences from 5 are used to generate rules from groupA to groupB. 7. Rules from 3 and 6 are put together . The methods have been evaluated as follows: 1.The rules that were used to simulate the object were replaced with the rules that were learned by the agent. The object showed the same behavior as the object with the initial rules. 2. The number of experiments was counted. Method two needed a less number of experiments and is therefore more suitable when the objects are complex.