tiiuae
/

falcon-mamba-7b

Text Generation

Inference Endpoints

Model card Files Files and versions Community

ybelkada commited on Jul 22

Commit

3cd1fb0

•

1 Parent(s): 7eb9ef4

Update README.md

Files changed (1) hide show

README.md +42 -0

README.md CHANGED Viewed

@@ -85,6 +85,48 @@ print(tokenizer.decode(outputs[0]))
 </details>
 ### Running the model on a GPU using different precisions
 #### FP16

 </details>
+### Running the model on a GPU using `torch.compile`
+<details>
+<summary> Click to expand </summary>
+```python
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-mamba-7b")
+model = AutoModelForCausalLM.from_pretrained("tiiuae/falcon-mamba-7b", torch_dtype=torch.bfloat16).to(0)
+model = torch.compile(model)
+input_text = "Question: How many hours in one day? Answer: "
+input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
+outputs = model.generate(input_ids)
+print(tokenizer.decode(outputs[0]))
+```
+</details>
+<details>
+<summary> Click to expand </summary>
+```python
+# pip install accelerate
+from transformers import AutoTokenizer, AutoModelForCausalLM
+tokenizer = AutoTokenizer.from_pretrained("tiiuae/falcon-mamba-7b")
+model = AutoModelForCausalLM.from_pretrained("tiiuae/falcon-mamba-7b", device_map="auto")
+input_text = "Question: How many hours in one day? Answer: "
+input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
+outputs = model.generate(input_ids)
+print(tokenizer.decode(outputs[0]))
+```
+</details>
 ### Running the model on a GPU using different precisions
 #### FP16