Table 2.
Parameters for BERT-Large
| Parameter Name | Value of Parameter |
|---|---|
| Number of Layers | 24 |
| Hidden Size | 1024 |
| Attention Heads | 16 |
| Number of Parameters | 340M |
Parameters for BERT-Large
| Parameter Name | Value of Parameter |
|---|---|
| Number of Layers | 24 |
| Hidden Size | 1024 |
| Attention Heads | 16 |
| Number of Parameters | 340M |