TS=("deep reinforcement learning") AND PY=(2011-2022)