update

lugimzzz · lugimzzz · commit 1b106e209c33 · 2023-01-12T05:07:46.000Z
diff --git a/paddlenlp/dataaug/base_augment.py b/paddlenlp/dataaug/base_augment.py
@@ -41,7 +41,7 @@ class BaseAugment(object):
             Maximum number of augmented words in sequences.
     """
 
-    def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=10):
+    def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=10, vocab="vocab"):
         self._DATA = {
             "stop_words": (
                 "stopwords.txt",
@@ -53,6 +53,11 @@ def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=1
                 "25c2d41aec5a6d328a65c1995d4e4c2e",
                 "https://bj.bcebos.com/paddlenlp/data/baidu_encyclopedia_w2v_vocab.json",
             ),
+            "test_vocab": (
+                "test_vocab.json",
+                "1d2fce1c80a4a0ec2e90a136f339ab88",
+                "https://bj.bcebos.com/paddlenlp/data/test_vocab.json",
+            ),
             "word_synonym": (
                 "word_synonym.json",
                 "aaa9f864b4af4123bce4bf138a5bfa0d",
@@ -90,7 +95,7 @@ def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=1
         self.aug_min = aug_min
         self.aug_max = aug_max
         self.create_n = create_n
-        self.vocab = Vocab.from_json(self._load_file("vocab"))
+        self.vocab = Vocab.from_json(self._load_file(vocab))
         self.tokenizer = JiebaTokenizer(self.vocab)
         self.loop = 5
 
diff --git a/paddlenlp/dataaug/char.py b/paddlenlp/dataaug/char.py
@@ -63,8 +63,11 @@ def __init__(
         aug_min=1,
         aug_max=10,
         model_name="ernie-1.0-large-zh-cw",
+        vocab="vocab",
     ):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max)
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
         self.custom_file_path = custom_file_path
         self.delete_file_path = delete_file_path
@@ -275,8 +278,11 @@ def __init__(
         aug_min=1,
         aug_max=10,
         model_name="ernie-1.0-large-zh-cw",
+        vocab="vocab",
     ):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max)
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
         self.custom_file_path = custom_file_path
         self.delete_file_path = delete_file_path
@@ -457,8 +463,10 @@ class CharSwap(BaseAugment):
             Maximum number of augmented characters in sequences.
     """
 
-    def __init__(self, create_n=1, aug_n=None, aug_percent=None, aug_min=1, aug_max=10):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=0.1, aug_min=aug_min, aug_max=aug_max)
+    def __init__(self, create_n=1, aug_n=None, aug_percent=None, aug_min=1, aug_max=10, vocab="vocab"):
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=0.1, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
     def _augment(self, sequence):
 
@@ -521,8 +529,10 @@ class CharDelete(BaseAugment):
             Maximum number of augmented characters in sequences.
     """
 
-    def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=10):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max)
+    def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=10, vocab="vocab"):
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
     def _augment(self, sequence):
 
diff --git a/paddlenlp/dataaug/word.py b/paddlenlp/dataaug/word.py
@@ -70,8 +70,11 @@ def __init__(
         tf_idf=False,
         tf_idf_file=None,
         model_name="ernie-1.0-large-zh-cw",
+        vocab="vocab",
     ):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max)
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
         self.custom_file_path = custom_file_path
         self.delete_file_path = delete_file_path
@@ -341,8 +344,11 @@ def __init__(
         aug_min=1,
         aug_max=10,
         model_name="ernie-1.0-large-zh-cw",
+        vocab="vocab",
     ):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max)
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
         self.custom_file_path = custom_file_path
         self.delete_file_path = delete_file_path
@@ -524,8 +530,10 @@ class WordSwap(BaseAugment):
             Maximum number of augmented words in sequences.
     """
 
-    def __init__(self, create_n=1, aug_n=None, aug_percent=None, aug_min=1, aug_max=10):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=0.1, aug_min=aug_min, aug_max=aug_max)
+    def __init__(self, create_n=1, aug_n=None, aug_percent=None, aug_min=1, aug_max=10, vocab="vocab"):
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=0.1, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
     def _augment(self, sequence):
 
@@ -588,8 +596,10 @@ class WordDelete(BaseAugment):
             Maximum number of augmented words in sequences.
     """
 
-    def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=10):
-        super().__init__(create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max)
+    def __init__(self, create_n=1, aug_n=None, aug_percent=0.1, aug_min=1, aug_max=10, vocab="vocab"):
+        super().__init__(
+            create_n=create_n, aug_n=aug_n, aug_percent=aug_percent, aug_min=aug_min, aug_max=aug_max, vocab=vocab
+        )
 
     def _augment(self, sequence):
 
diff --git a/tests/dataaug/test_char_aug.py b/tests/dataaug/test_char_aug.py
@@ -57,14 +57,18 @@ def set_random_seed(self, seed):
     def test_char_substitute(self, create_n):
         for t in self.types:
             if t == "mlm":
-                aug = CharSubstitute("mlm", create_n=create_n, model_name="__internal_testing__/ernie")
+                aug = CharSubstitute(
+                    "mlm", create_n=create_n, model_name="__internal_testing__/ernie", vocab="test_vocab"
+                )
                 augmented = aug.augment(self.sequences)
                 self.assertEqual(len(self.sequences), len(augmented))
                 continue
             elif t == "custom":
-                aug = CharSubstitute("custom", create_n=create_n, custom_file_path=self.custom_file_path)
+                aug = CharSubstitute(
+                    "custom", create_n=create_n, custom_file_path=self.custom_file_path, vocab="test_vocab"
+                )
             else:
-                aug = CharSubstitute(t, create_n=create_n)
+                aug = CharSubstitute(t, create_n=create_n, vocab="test_vocab")
 
             augmented = aug.augment(self.sequences)
             self.assertEqual(len(self.sequences), len(augmented))
@@ -75,14 +79,16 @@ def test_char_substitute(self, create_n):
     def test_char_insert(self, create_n):
         for t in self.types:
             if t == "mlm":
-                aug = CharInsert("mlm", create_n=create_n, model_name="__internal_testing__/ernie")
+                aug = CharInsert("mlm", create_n=create_n, model_name="__internal_testing__/ernie", vocab="test_vocab")
                 augmented = aug.augment(self.sequences)
                 self.assertEqual(len(self.sequences), len(augmented))
                 continue
             elif t == "custom":
-                aug = CharInsert("custom", create_n=create_n, custom_file_path=self.custom_file_path)
+                aug = CharInsert(
+                    "custom", create_n=create_n, custom_file_path=self.custom_file_path, vocab="test_vocab"
+                )
             else:
-                aug = CharInsert(t, create_n=create_n)
+                aug = CharInsert(t, create_n=create_n, vocab="test_vocab")
 
             augmented = aug.augment(self.sequences)
             self.assertEqual(len(self.sequences), len(augmented))
@@ -91,15 +97,15 @@ def test_char_insert(self, create_n):
 
     @parameterized.expand([(1,)])
     def test_char_delete(self, create_n):
-        aug = CharDelete(create_n=create_n)
+        aug = CharDelete(create_n=create_n, vocab="test_vocab")
         augmented = aug.augment(self.sequences)
         self.assertEqual(len(self.sequences), len(augmented))
         self.assertEqual(create_n, len(augmented[0]))
         self.assertEqual(create_n, len(augmented[1]))
 
     @parameterized.expand([(1,)])
     def test_char_swap(self, create_n):
-        aug = CharSwap(create_n=create_n)
+        aug = CharSwap(create_n=create_n, vocab="test_vocab")
         augmented = aug.augment(self.sequences)
         self.assertEqual(len(self.sequences), len(augmented))
         self.assertEqual(create_n, len(augmented[0]))
diff --git a/tests/dataaug/test_word_aug.py b/tests/dataaug/test_word_aug.py
@@ -50,14 +50,18 @@ def set_random_seed(self, seed):
     def test_word_substitute(self, create_n):
         for t in self.types:
             if t == "mlm":
-                aug = WordSubstitute("mlm", create_n=create_n, model_name="__internal_testing__/ernie")
+                aug = WordSubstitute(
+                    "mlm", create_n=create_n, model_name="__internal_testing__/ernie", vocab="test_vocab"
+                )
                 augmented = aug.augment(self.sequences)
                 self.assertEqual(len(self.sequences), len(augmented))
                 continue
             elif t == "custom":
-                aug = WordSubstitute("custom", create_n=create_n, custom_file_path=self.custom_file_path)
+                aug = WordSubstitute(
+                    "custom", create_n=create_n, custom_file_path=self.custom_file_path, vocab="test_vocab"
+                )
             else:
-                aug = WordSubstitute(t, create_n=create_n)
+                aug = WordSubstitute(t, create_n=create_n, vocab="test_vocab")
 
             augmented = aug.augment(self.sequences)
             self.assertEqual(len(self.sequences), len(augmented))
@@ -68,14 +72,16 @@ def test_word_substitute(self, create_n):
     def test_word_insert(self, create_n):
         for t in self.types:
             if t == "mlm":
-                aug = WordInsert("mlm", create_n=create_n, model_name="__internal_testing__/ernie")
+                aug = WordInsert("mlm", create_n=create_n, model_name="__internal_testing__/ernie", vocab="test_vocab")
                 augmented = aug.augment(self.sequences)
                 self.assertEqual(len(self.sequences), len(augmented))
                 continue
             elif t == "custom":
-                aug = WordInsert("custom", create_n=create_n, custom_file_path=self.custom_file_path)
+                aug = WordInsert(
+                    "custom", create_n=create_n, custom_file_path=self.custom_file_path, vocab="test_vocab"
+                )
             else:
-                aug = WordInsert(t, create_n=create_n)
+                aug = WordInsert(t, create_n=create_n, vocab="test_vocab")
 
             augmented = aug.augment(self.sequences)
             self.assertEqual(len(self.sequences), len(augmented))
@@ -84,15 +90,15 @@ def test_word_insert(self, create_n):
 
     @parameterized.expand([(1,)])
     def test_word_delete(self, create_n):
-        aug = WordDelete(create_n=create_n)
+        aug = WordDelete(create_n=create_n, vocab="test_vocab")
         augmented = aug.augment(self.sequences)
         self.assertEqual(len(self.sequences), len(augmented))
         self.assertEqual(create_n, len(augmented[0]))
         self.assertEqual(create_n, len(augmented[1]))
 
     @parameterized.expand([(1,)])
     def test_word_swap(self, create_n):
-        aug = WordSwap(create_n=create_n)
+        aug = WordSwap(create_n=create_n, vocab="test_vocab")
         augmented = aug.augment(self.sequences)
         self.assertEqual(len(self.sequences), len(augmented))
         self.assertEqual(create_n, len(augmented[0]))