Weight Initialization

Description

با استفاده از تکنیک های زیر میتونیم یه عدد اولیه خوب برای w انتخاب کنیم که از exploding/vanishing تو deep neural network جلوگیری کنه.

For RELU activation function:

For tanh activation function :

Another commonly used heuristic is: