. Author manuscript; available in PMC: 2021 Mar 12.

Published in final edited form as: KDD. 2017 Aug;2017:787–795. doi: 10.1145/3097983.3098126

Algorithm 1.

GRAM Optimization

Randomly initialize basic embedding matrix E, attention parameters u_a, W_a, b_a, RNN parameter θ_r, softmax parameters W, b.

repeat

Update E with GloVe objective function (see Section 2.4)

until convergence

repeat

X ← random patient from dataset

for visit V_t in X do

for code c_i in V_t do

Refer

G

to find c_i’s ancestors C′

for code c_j in C′ do

Calculate attention weight α_ij using Eq. (2).

end for

Obtain final representation g_i; using Eq. (1).

end for

v_t ← tanh(∑_{i:c_i∈V_t} g_i)

Make prediction

{\hat{y}}_{t}

using Eq. (4)

end for

Calculate prediction loss

L

using Eq. (5)

Update parameters according to the gradient of

L

until convergence