Weight Initialization
Description
با استفاده از تکنیک های زیر میتونیم یه عدد اولیه خوب برای w انتخاب کنیم که از exploding/vanishing تو deep neural network جلوگیری کنه.
For RELU activation function:
For tanh activation function :
Another commonly used heuristic is: