if001
/

sentencepiece_ja

Model card Files Files and versions Community

if001 commited on Sep 30, 2023

Commit

da15cde

•

1 Parent(s): 9e3e2aa

fix

Files changed (1) hide show

sentencepiece_ja.py +27 -22

sentencepiece_ja.py CHANGED Viewed

@@ -4,15 +4,30 @@ from typing import Union, List, Optional, Tuple
 from transformers import PreTrainedTokenizer, PreTrainedTokenizerFast
 class SentencePieceJA(PreTrainedTokenizer):
-    def __init__(self, model_path = "./tokenizer.json", **kwargs):
-        super().__init__(**kwargs)
         from tokenizers import Tokenizer
-        self._tokenizer = Tokenizer.from_file(model_path)
-        self.__pad_id = self._tokenize("<PAD>")[0]
-        self.__bos_id = self._tokenize("<BOS>")[0]
-        self.__eos_id = self._tokenize("<EOS>")[0]
-        self.__unk_id = self._tokenize("<UNK>")[0]
-        self.__mask_id = self._tokenize("<MASK>")[0]
     def get_vocab(self) -> int:
         return self._tokenizer.get_vocab()
@@ -20,24 +35,14 @@ class SentencePieceJA(PreTrainedTokenizer):
     def vocab_size(self) -> int:
         return self._tokenizer.get_vocab_size()
-    def _tokenize(self, text, **kwargs):
-        return self._tokenizer.encode(text).ids
     def _convert_token_to_id(self, token):
-        return token
-    def _convert_id_to_token(self, index: int) -> str:
         return self._tokenizer.decode(index)
-        # return self._tokenizer.id_to_token(index)
-    def convert_tokens_to_ids(self, tokens: Union[str, List[str]]) -> Union[int, List[int]]:
-        return tokens
-    def convert_ids_to_tokens(
-        self, ids: Union[int, List[int]], skip_special_tokens: bool = False
-    ) -> Union[str, List[str]]:
-        decoded = self._tokenizer.decode(ids)
-        return decoded
     def save_vocabulary(self, save_directory: str, filename_prefix: Optional[str] = None) -> Tuple[str]:
         index = 0

 from transformers import PreTrainedTokenizer, PreTrainedTokenizerFast
 class SentencePieceJA(PreTrainedTokenizer):
+    def __init__(self,
+                 model_path = "./tokenizer.json",
+                 pad = "<PAD>",
+                 bos = "<BOS>",
+                 eos = "<EOS>",
+                 unk = "<UNK>",
+                 mask = "<MASK>",
+                 **kwargs):
         from tokenizers import Tokenizer
+        self._tokenizer = Tokenizer.from_file(model_path)
+        super().__init__(
+            pad_token=pad,
+            bos_token=bos,
+            eos_token=eos,
+            unk_token=unk,
+            mask_token=mask,
+            **kwargs)
+        self.add_special_tokens({
+            'pad_token': pad,
+            'bos_token': bos,
+            'eos_token': eos,
+            'unk_token': unk,
+            'mask_token': mask
+        })
     def get_vocab(self) -> int:
         return self._tokenizer.get_vocab()
     def vocab_size(self) -> int:
         return self._tokenizer.get_vocab_size()
+    def _tokenize(self, text, **kwargs):
+        return self._tokenizer.encode(text).tokens
     def _convert_token_to_id(self, token):
+        return self._tokenizer.encode(token).ids[0]
+    def _convert_id_to_token(self, index: int) -> str:
         return self._tokenizer.decode(index)
     def save_vocabulary(self, save_directory: str, filename_prefix: Optional[str] = None) -> Tuple[str]:
         index = 0