Так все и происходит "в реальном времени" (и обучение и самообучение)... Замысел был такой: - управляем заранее "прошитым" интегральным критерием (типа "интерес"), создавая вокруг ИИ разнообразные учебные ситуации. При оценке результата действий ИИ вмешиваемся в оценку, поощряя с помощью того же критерия "правильное поведение", и не поощряя "неправильное". ИИ запоминает "опыт", причем в референции к критерию, этот опыт входит в функцию оценки наравне с критерием. Набрав достаточно опыта включаем внутри "обратную связь", одновременно отключая управление. ИИ маниакально "тянется" в новой учебной ситуации к результату, сам себя оценивает, получает новый опыт и так далее, постепенно усложняясь при самообучении... Но не вышло, при "отпускании на вольные хлеба" быстро (на 1-й, максимум на 2-й ситуации происходит "коллапс"), либо остается голый "маниакализм" (очень редко), либо полностью исчезает всякая активность (пропал интерес). При проверке "системной памяти" (опыта) обнаруживаем там полный хаос... Коллеги из США решили, что это от малой "вычислительной мощности", получили колоссальные бабки и сейчас строют "суперкомпьютер" (поживем, увидим что получится). Там ничего не надо "подавлять" (нет "конкурирующих" процессов) моделируется самое простое поведение (типа: найти скорейший путь из точки А в точку Б с объездом препятствий). Проблему многие видят лишь одну - рекурсивность "оценочной функции" (чисто математически), а по простому - "прошитый рефлекс" не может заменить живую эмоцию (он тождественно мертв). А Вы мне не верьте наслово, наберите в поисковике "нейронные сети результат" и гляньте сами (остерегайтесь пиара и рекламы)... :)
Re: самообман
Замысел был такой:
- управляем заранее "прошитым" интегральным критерием (типа "интерес"), создавая вокруг ИИ разнообразные учебные ситуации. При оценке результата действий ИИ вмешиваемся в оценку, поощряя с помощью того же критерия "правильное поведение", и не поощряя "неправильное". ИИ запоминает "опыт", причем в референции к критерию, этот опыт входит в функцию оценки наравне с критерием. Набрав достаточно опыта включаем внутри "обратную связь", одновременно отключая управление. ИИ маниакально "тянется" в новой учебной ситуации к результату, сам себя оценивает, получает новый опыт и так далее, постепенно усложняясь при самообучении...
Но не вышло, при "отпускании на вольные хлеба" быстро (на 1-й, максимум на 2-й ситуации происходит "коллапс"), либо остается голый "маниакализм" (очень редко), либо полностью исчезает всякая активность (пропал интерес). При проверке "системной памяти" (опыта) обнаруживаем там полный хаос... Коллеги из США решили, что это от малой "вычислительной мощности", получили колоссальные бабки и сейчас строют "суперкомпьютер" (поживем, увидим что получится).
Там ничего не надо "подавлять" (нет "конкурирующих" процессов) моделируется самое простое поведение (типа: найти скорейший путь из точки А в точку Б с объездом препятствий). Проблему многие видят лишь одну - рекурсивность "оценочной функции" (чисто математически), а по простому - "прошитый рефлекс" не может заменить живую эмоцию (он тождественно мертв).
А Вы мне не верьте наслово, наберите в поисковике "нейронные сети результат" и гляньте сами (остерегайтесь пиара и рекламы)... :)