dmlc
diff --git a/‎scripts/bert/bert_qa_dataset.py
Lines changed: 1 addition & 1 deletion b/‎scripts/bert/bert_qa_dataset.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎scripts/bert/staticbert/static_export_squad.py
Lines changed: 4 additions & 3 deletions b/‎scripts/bert/staticbert/static_export_squad.py
Lines changed: 4 additions & 3 deletions
diff --git a/‎scripts/bert/staticbert/static_finetune_squad.py
Lines changed: 28 additions & 30 deletions b/‎scripts/bert/staticbert/static_finetune_squad.py
Lines changed: 28 additions & 30 deletions
diff --git a/‎scripts/bert/utils.py
Lines changed: 1 addition & 1 deletion b/‎scripts/bert/utils.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎scripts/language_model/sampler.py
Lines changed: 1 addition & 1 deletion b/‎scripts/language_model/sampler.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎scripts/parsing/common/config.py
Lines changed: 14 additions & 5 deletions b/‎scripts/parsing/common/config.py
Lines changed: 14 additions & 5 deletions
@@ -18,8 +18,8 @@
 import time
 from functools import partial
 
-from gluonnlp.data.utils import whitespace_splitter
 from mxnet.gluon.data import SimpleDataset
+from gluonnlp.data.utils import whitespace_splitter
 
 
 class SquadExample(object):
 
@@ -214,9 +214,10 @@ def evaluate(data_source):
     tic = time.time()
     for batch in data_source:
         inputs, token_types, valid_length = batch
-        out = net(inputs.astype('float32').as_in_context(ctx),
-                  token_types.astype('float32').as_in_context(ctx),
-                  valid_length.astype('float32').as_in_context(ctx))
+        net(inputs.astype('float32').as_in_context(ctx),
+            token_types.astype('float32').as_in_context(ctx),
+            valid_length.astype('float32').as_in_context(ctx))
+    mx.nd.waitall()
     toc = time.time()
     log.info('Inference time cost={:.2f} s, Thoughput={:.2f} samples/s'
              .format(toc - tic,
 
@@ -1,20 +1,3 @@
-"""
-SQuAD with Static Bidirectional Encoder Representations from Transformers (BERT)
-
-=========================================================================================
-
-This example shows how to finetune a model with pre-trained BERT parameters with static shape for
-SQuAD, with Gluon NLP Toolkit.
-
-@article{devlin2018bert,
-  title={BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding},
-  author={Devlin, Jacob and Chang, Ming- \
-      Wei and Lee, Kenton and Toutanova, Kristina},
-  journal={arXiv preprint arXiv:1810.04805},
-  year={2018}
-}
-"""
-
 # coding=utf-8
 
 # Licensed to the Apache Software Foundation (ASF) under one
@@ -34,7 +17,22 @@
 # specific language governing permissions and limitations
 # under the License.
 # pylint:disable=redefined-outer-name,logging-format-interpolation
+"""
+SQuAD with Static Bidirectional Encoder Representations from Transformers (BERT)
 
+=========================================================================================
+
+This example shows how to finetune a model with pre-trained BERT parameters with static shape for
+SQuAD, with Gluon NLP Toolkit.
+
+@article{devlin2018bert,
+  title={BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding},
+  author={Devlin, Jacob and Chang, Ming- \
+      Wei and Lee, Kenton and Toutanova, Kristina},
+  journal={arXiv preprint arXiv:1810.04805},
+  year={2018}
+}
+"""
 import argparse
 import collections
 import json
@@ -43,21 +41,21 @@
 import random
 import time
 import warnings
+import sys
 
 import numpy as np
 import mxnet as mx
 from mxnet import gluon, nd
 
-import sys
-sys.path.append("..")
-
 import gluonnlp as nlp
-from gluonnlp.data import SQuAD
+
 from static_bert_qa_model import BertForQALoss, StaticBertForQA
 from bert_qa_dataset import (SQuADTransform, preprocess_dataset)
 from bert_qa_evaluate import get_F1_EM, predictions
 from static_bert import get_model
 
+sys.path.append('..')
+
 np.random.seed(6)
 random.seed(6)
 mx.random.seed(6)
@@ -302,9 +300,9 @@ def train():
     """Training function."""
     log.info('Loader Train data...')
     if version_2:
-        train_data = SQuAD('train', version='2.0')
+        train_data = nlp.data.SQuAD('train', version='2.0')
     else:
-        train_data = SQuAD('train', version='1.1')
+        train_data = nlp.data.SQuAD('train', version='1.1')
     log.info('Number of records in Train data:{}'.format(len(train_data)))
 
     train_data_transform, _ = preprocess_dataset(
@@ -410,11 +408,11 @@ def set_new_lr(step_num, batch_id):
 
             if (batch_id + 1) % log_interval == 0:
                 toc = time.time()
-                log.info(
-                    'Epoch: {}, Batch: {}/{}, Loss={:.4f}, lr={:.7f} Time cost={:.1f} Thoughput={:.2f} samples/s'  # pylint: disable=line-too-long
-                        .format(epoch_id, batch_id, len(train_dataloader),
-                                step_loss / log_interval,
-                                trainer.learning_rate, toc - tic, log_num / (toc - tic)))
+                log.info('Epoch: %d, Batch: %d/%d, Loss=%.4f, lr=%.7f '
+                         'Time cost=%.1f Thoughput=%.2f samples/s',
+                         epoch_id, batch_id, len(train_dataloader),
+                         step_loss / log_interval,
+                         trainer.learning_rate, toc - tic, log_num / (toc - tic))
                 tic = time.time()
                 step_loss = 0.0
                 log_num = 0
@@ -431,9 +429,9 @@ def evaluate():
     """
     log.info('Loader dev data...')
     if version_2:
-        dev_data = SQuAD('dev', version='2.0')
+        dev_data = nlp.data.SQuAD('dev', version='2.0')
     else:
-        dev_data = SQuAD('dev', version='1.1')
+        dev_data = nlp.data.SQuAD('dev', version='1.1')
     log.info('Number of records in Train data:{}'.format(len(dev_data)))
 
     dev_dataset = dev_data.transform(
 
@@ -24,8 +24,8 @@
 import io
 import json
 
-import gluonnlp
 import mxnet as mx
+import gluonnlp
 
 __all__ = ['convert_vocab']
 
 
@@ -63,7 +63,7 @@ def __init__(self, range_max, num_sampled, dtype=None, **kwargs):
     def _prob_helper(self, num_tries, prob):
         return (num_tries.astype('float64') * (-prob).log1p()).expm1() * -1
 
-    def forward(self, true_classes):
+    def forward(self, true_classes): # pylint: disable=arguments-differ
         """Draw samples from log uniform distribution and returns sampled candidates,
         expected count for true classes and sampled classes.
 
 
@@ -16,21 +16,29 @@
 # KIND, either express or implied.  See the License for the
 # specific language governing permissions and limitations
 # under the License.
+"""Training config."""
+
 import os
 import pickle
 
 from scripts.parsing.common.savable import Savable
 
 
 class _Config(Savable):
-    def __init__(self, train_file, dev_file, test_file, save_dir, pretrained_embeddings_file=None, min_occur_count=2,
+    def __init__(self, train_file, dev_file, test_file, save_dir,
+                 pretrained_embeddings_file=None, min_occur_count=2,
                  lstm_layers=3, word_dims=100, tag_dims=100, dropout_emb=0.33, lstm_hiddens=400,
-                 dropout_lstm_input=0.33, dropout_lstm_hidden=0.33, mlp_arc_size=500, mlp_rel_size=100,
-                 dropout_mlp=0.33, learning_rate=2e-3, decay=.75, decay_steps=5000, beta_1=.9, beta_2=.9, epsilon=1e-12,
+                 dropout_lstm_input=0.33,
+                 dropout_lstm_hidden=0.33, mlp_arc_size=500, mlp_rel_size=100,
+                 dropout_mlp=0.33, learning_rate=2e-3, decay=.75, decay_steps=5000,
+                 beta_1=.9, beta_2=.9, epsilon=1e-12,
                  num_buckets_train=40,
-                 num_buckets_valid=10, num_buckets_test=10, train_iters=50000, train_batch_size=5000, debug=False):
+                 num_buckets_valid=10, num_buckets_test=10,
+                 train_iters=50000, train_batch_size=5000, debug=False):
         """Internal structure for hyper parameters, intended for pickle serialization.
-            May be replaced by a dict, but this class provides intuitive properties and saving/loading mechanism
+
+        May be replaced by a dict, but this class provides intuitive properties
+        and saving/loading mechanism
 
         Parameters
         ----------
@@ -63,6 +71,7 @@ def __init__(self, train_file, dev_file, test_file, save_dir, pretrained_embeddi
         train_batch_size
         debug
         """
+        super(_Config, self).__init__()
         self.pretrained_embeddings_file = pretrained_embeddings_file
         self.train_file = train_file
         self.dev_file = dev_file