BARTpho
This model was released on 2021-09-20 and added to Hugging Face Transformers on 2021-10-18.
BARTpho
Section titled “BARTpho”BARTpho is a large-scale Vietnamese sequence-to-sequence model. It offers a word-based and syllable-based version. This model is built on the BART large architecture with its denoising pretraining.
You can find all the original checkpoints under the VinAI organization.
The example below demonstrates how to summarize text with Pipeline or the AutoModel class.
import torchfrom transformers import pipeline
pipeline = pipeline( task="summarization", model="vinai/bartpho-word", dtype=torch.float16, device=0)
text = """Quang tổng hợp hay gọi tắt là quang hợp là quá trình thu nhận và chuyển hóa năng lượng ánh sáng Mặt trời của thực vật,tảo và một số vi khuẩn để tạo ra hợp chất hữu cơ phục vụ bản thân cũng như làm nguồn thức ăn cho hầu hết các sinh vậttrên Trái Đất. Quang hợp trong thực vật thường liên quan đến chất tố diệp lục màu xanh lá cây và tạo ra oxy như một sản phẩm phụ"""pipeline(text)import torchfrom transformers import BartForConditionalGeneration, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained( "vinai/bartpho-word",)model = BartForConditionalGeneration.from_pretrained( "vinai/bartpho-word", dtype=torch.float16, device_map="auto",)
text = """Quang tổng hợp hay gọi tắt là quang hợp là quá trình thu nhận và chuyển hóa năng lượng ánh sáng Mặt trời của thực vật,tảo và một số vi khuẩn để tạo ra hợp chất hữu cơ phục vụ bản thân cũng như làm nguồn thức ăn cho hầu hết các sinh vậttrên Trái Đất. Quang hợp trong thực vật thường liên quan đến chất tố diệp lục màu xanh lá cây và tạo ra oxy như một sản phẩm phụ"""inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(inputs["input_ids"], num_beams=2, min_length=0, max_length=20)tokenizer.batch_decode(outputs, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]echo -e "Quang tổng hợp hay gọi tắt là quang hợp là quá trình thu nhận và chuyển hóa năng lượng ánh sáng Mặt trời của thực vật,tảo và một số vi khuẩn để tạo ra hợp chất hữu cơ phục vụ bản thân cũng như làm nguồn thức ăn cho hầu hết các sinh vậttrên Trái Đất. Quang hợp trong thực vật thường liên quan đến chất tố diệp lục màu xanh lá cây và tạo ra oxy như một sản phẩm phụ" | \transformers run --task summarization --model vinai/bartpho-word --device 0- BARTpho uses the large architecture of BART with an additional layer-normalization layer on top of the encoder and decoder. The BART-specific classes should be replaced with the mBART-specific classes.
- This implementation only handles tokenization through the
monolingual_vocab_filefile. This is a Vietnamese-specific subset of token types taken from that multilingual vocabulary. If you want to use this tokenizer for another language, replace themonolingual_vocab_filewith one specialized for your target language.
BartphoTokenizer
Section titled “BartphoTokenizer”[[autodoc]] BartphoTokenizer