Spaces:

Kit-Lemonfoot
/

Lemonfoot_GPTSoVITS

Running

App Files Files Community

Kit-Lemonfoot commited on Jun 27

Commit

d848e9a

•

1 Parent(s): 926eb83

Added Ame, Mint and Tenma, did some code changes

Browse files

Files changed (27) hide show

.gitattributes +10 -0
GPT_SoVITS/GPT_weights/AmeliaWatson_GPT.ckpt +3 -0
GPT_SoVITS/GPT_weights/MintFantome_GPT.ckpt +3 -0
GPT_SoVITS/GPT_weights/TenmaMaemi_GPT.ckpt +3 -0
GPT_SoVITS/SoVITS_weights/AmeliaWatson_SoVITS.pth +3 -0
GPT_SoVITS/SoVITS_weights/MintFantome_SoVITS.pth +3 -0
GPT_SoVITS/SoVITS_weights/TenmaMaemi_SoVITS.pth +3 -0
GPT_SoVITS/inference_webui.py +25 -24
images/amelia.png +0 -0
images/mint.png +0 -0
images/tenma.png +0 -0
referenceaudio/Amelia/A1.wav +0 -0
referenceaudio/Amelia/A2.wav +0 -0
referenceaudio/Amelia/A3.wav +0 -0
referenceaudio/Amelia/A4.wav +0 -0
referenceaudio/Amelia/A5.wav +0 -0
referenceaudio/Mint/A1.wav +3 -0
referenceaudio/Mint/A2.wav +3 -0
referenceaudio/Mint/A3.wav +3 -0
referenceaudio/Mint/A4.wav +3 -0
referenceaudio/Mint/A5.wav +3 -0
referenceaudio/Mint/A6.wav +3 -0
referenceaudio/Tenma/A1.wav +3 -0
referenceaudio/Tenma/A2.wav +3 -0
referenceaudio/Tenma/A3.wav +3 -0
referenceaudio/Tenma/A4.wav +3 -0
voicelist.json +64 -0

.gitattributes CHANGED Viewed

@@ -59,3 +59,13 @@ referenceaudio/Pippa/A2.wav filter=lfs diff=lfs merge=lfs -text
 referenceaudio/Pippa/A3.wav filter=lfs diff=lfs merge=lfs -text
 referenceaudio/Pippa/A4.wav filter=lfs diff=lfs merge=lfs -text
 referenceaudio/Pippa/A5.wav filter=lfs diff=lfs merge=lfs -text

 referenceaudio/Pippa/A3.wav filter=lfs diff=lfs merge=lfs -text
 referenceaudio/Pippa/A4.wav filter=lfs diff=lfs merge=lfs -text
 referenceaudio/Pippa/A5.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Mint/A1.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Mint/A2.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Mint/A3.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Mint/A4.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Mint/A5.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Mint/A6.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Tenma/A1.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Tenma/A2.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Tenma/A3.wav filter=lfs diff=lfs merge=lfs -text
+referenceaudio/Tenma/A4.wav filter=lfs diff=lfs merge=lfs -text

GPT_SoVITS/GPT_weights/AmeliaWatson_GPT.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3069216bbe38824e8fa1ba2dd9e1c48a133f6a26714cc4837d1e423cd27b931a
+size 155087286

GPT_SoVITS/GPT_weights/MintFantome_GPT.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dae9cc650512175057d2690f0124dfb6781f011e039f24123280b038e9adf495
+size 155087286

GPT_SoVITS/GPT_weights/TenmaMaemi_GPT.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2942e8e31b4c9195baaf5b33d360f60de9e6974dcaedd209864e81ecb6b9c9f9
+size 155087222

GPT_SoVITS/SoVITS_weights/AmeliaWatson_SoVITS.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a58edf0253460d726fae913a91c6aba1956df6f2c86419d8ed1bb380e66313a
+size 84885457

GPT_SoVITS/SoVITS_weights/MintFantome_SoVITS.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09ac61e6f1c8739ac4b49ad61c26861f05225c3395fe7499662ac70e474935da
+size 84885455

GPT_SoVITS/SoVITS_weights/TenmaMaemi_SoVITS.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:066a43e3e5b0b5ad7c2fa732b79d35bf00fee6f84a9d194a80bdc8d4e0ccf1d1
+size 84885452

GPT_SoVITS/inference_webui.py CHANGED Viewed

@@ -81,7 +81,7 @@ def inference(name, gptmp, svmp, sty, text, text_lang,
               prompt_lang, top_k,
               top_p, temperature,
               text_split_method, batch_size,
-              speed_factor, ref_text_free,
               split_bucket,fragment_interval,
               seed, keep_random, parallel_infer,
               repetition_penalty
@@ -98,14 +98,14 @@ def inference(name, gptmp, svmp, sty, text, text_lang,
         tts_pipeline.init_t2s_weights(gptmp)
         tts_pipeline.init_vits_weights(svmp)
     seed = -1 if keep_random else seed
     actual_seed = seed if seed not in [-1, "", None] else random.randrange(1 << 32)
     inputs={
         "text": text,
         "text_lang": dict_language[text_lang],
         "ref_audio_path": ref_audio_path,
-        "prompt_text": prompt_text if not ref_text_free else "",
         "prompt_lang": dict_language[prompt_lang],
         "top_k": top_k,
         "top_p": top_p,
@@ -140,8 +140,6 @@ pretrained_sovits_name = "GPT_SoVITS/pretrained_models/s2G488k.pth"
 pretrained_gpt_name = "GPT_SoVITS/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt"
 SoVITS_weight_root = "GPT_SoVITS/SoVITS_weights/"
 GPT_weight_root = "GPT_SoVITS/GPT_weights/"
-#os.makedirs(SoVITS_weight_root, exist_ok=True)
-#os.makedirs(GPT_weight_root, exist_ok=True)
 def get_weights_names():
     SoVITS_names = [pretrained_sovits_name]
@@ -162,13 +160,17 @@ def load_models():
         if not info['enable']:
             continue
         title= info['title']
-        #gptmodelpath= info['gpt_model_path']
-        #sovitsmodelpath= info['sovits_model_path']
         gptmodelpath= "%s/%s" % (GPT_weight_root, info['gpt_model_path'])
         sovitsmodelpath= "%s/%s" % (SoVITS_weight_root, info['sovits_model_path'])
         author= info['modelauthor']
         image = info['cover']
         styles = info['styles']
         styletrans = info['styletrans']
         st=[styles, styletrans]
         voices.append((name, title, gptmodelpath, sovitsmodelpath, author, image))
@@ -178,11 +180,6 @@ def load_models():
 modeldata, referencedata = load_models()
-#print(os.getcwd())
-#for r, _, f in os.walk(os.getcwd()):
-#    for n in f:
-#        print(os.path.join(r, n))
 #Gradio preload
 text = gr.TextArea(label="Input Text", value="Hello there! This is test audio of a new text to speech tool.")
 text_language = gr.Dropdown(label="Language", choices=["EN", "JP", "ZH", "ZH/EN", "JP/EN", "Automatic"], value="EN")
@@ -193,7 +190,7 @@ how_to_cut = gr.Dropdown(label="Slicing Method",
 )
 top_k = gr.Slider(minimum=1,maximum=100,step=1,label="Top_k",value=5,interactive=True)
 top_p = gr.Slider(minimum=0,maximum=1,step=0.05,label="Top_p",value=1,interactive=True)
-temperature = gr.Slider(minimum=0,maximum=1,step=0.05,label="Temperature",value=1,interactive=True)
 batch_size = gr.Slider(minimum=1,maximum=200,step=1,label="Batch Size",value=20,interactive=True)
 fragment_interval = gr.Slider(minimum=0.01,maximum=1,step=0.01,label="Fragment Interval",value=0.3,interactive=True)
 speed_factor = gr.Slider(minimum=0.50,maximum=2,step=0.05,label="Speed Factor",value=1.0,interactive=True)
@@ -221,26 +218,30 @@ with gr.Blocks(title="Lemonfoot GPT-SoVITS") as app:
                     gr.Markdown(f"**{title}**\n\n Dataset author: {author}")
                     gr.Image(f"images/{image}", label=None, show_label=False, width=300, show_download_button=False, container=False, show_share_button=False)
                 with gr.Column():
-                    with gr.TabItem("Style using a preset"):
-                        sty = gr.Dropdown(
-                            label="Current style",
-                            choices=referencedata[name][0].keys(),
-                            value="Neutral",
-                            interactive=True
-                        )
                     with gr.TabItem("Style using a different audio"):
                         with gr.Column():
                             ref_audio_path = gr.Audio(label="Reference Audio", type="filepath")
-                            ref_text_free = gr.Checkbox(label="Enables no text-reference mode.", value=False, interactive=True)
-                            prompt_text = gr.Textbox(label="Reference Audio Text", interactive=True)
-                            prompt_language = gr.Textbox(value="EN", visible=False, interactive=False)
                 with gr.Column():
                     inference_button = gr.Button("Synthesize", variant="primary")
                     output = gr.Audio(label="Output")
                     inference_button.click(
                         inference,
-                        inputs=[n, gptmp, svmp, sty, text, text_language, ref_audio_path, prompt_text, prompt_language, top_k, top_p, temperature, how_to_cut, batch_size, speed_factor, ref_text_free, split_bucket, fragment_interval, seed, keep_random, parallel_infer, repetition_penalty],
                         outputs=[output, seed]
                     )

               prompt_lang, top_k,
               top_p, temperature,
               text_split_method, batch_size,
+              speed_factor,
               split_bucket,fragment_interval,
               seed, keep_random, parallel_infer,
               repetition_penalty
         tts_pipeline.init_t2s_weights(gptmp)
         tts_pipeline.init_vits_weights(svmp)
     seed = -1 if keep_random else seed
     actual_seed = seed if seed not in [-1, "", None] else random.randrange(1 << 32)
+    print(f"TMP: {temperature} | SPDFCT: {speed_factor} | STY: {sty} | LANG: {text_lang}")
     inputs={
         "text": text,
         "text_lang": dict_language[text_lang],
         "ref_audio_path": ref_audio_path,
+        "prompt_text": prompt_text,
         "prompt_lang": dict_language[prompt_lang],
         "top_k": top_k,
         "top_p": top_p,
 pretrained_gpt_name = "GPT_SoVITS/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt"
 SoVITS_weight_root = "GPT_SoVITS/SoVITS_weights/"
 GPT_weight_root = "GPT_SoVITS/GPT_weights/"
 def get_weights_names():
     SoVITS_names = [pretrained_sovits_name]
         if not info['enable']:
             continue
         title= info['title']
         gptmodelpath= "%s/%s" % (GPT_weight_root, info['gpt_model_path'])
         sovitsmodelpath= "%s/%s" % (SoVITS_weight_root, info['sovits_model_path'])
         author= info['modelauthor']
         image = info['cover']
         styles = info['styles']
+        #check that all styles properly exist
+        for s in styles.values():
+            if(not os.path.exists(f"referenceaudio/{name}/{s}")):
+                print(f"WARNING : Some defined preset styles do not exist for model {name}, skipping")
+                styles=None
+                break
         styletrans = info['styletrans']
         st=[styles, styletrans]
         voices.append((name, title, gptmodelpath, sovitsmodelpath, author, image))
 modeldata, referencedata = load_models()
 #Gradio preload
 text = gr.TextArea(label="Input Text", value="Hello there! This is test audio of a new text to speech tool.")
 text_language = gr.Dropdown(label="Language", choices=["EN", "JP", "ZH", "ZH/EN", "JP/EN", "Automatic"], value="EN")
 )
 top_k = gr.Slider(minimum=1,maximum=100,step=1,label="Top_k",value=5,interactive=True)
 top_p = gr.Slider(minimum=0,maximum=1,step=0.05,label="Top_p",value=1,interactive=True)
+temperature = gr.Slider(minimum=0,maximum=1,step=0.05,label="Temperature",value=0.7,interactive=True)
 batch_size = gr.Slider(minimum=1,maximum=200,step=1,label="Batch Size",value=20,interactive=True)
 fragment_interval = gr.Slider(minimum=0.01,maximum=1,step=0.01,label="Fragment Interval",value=0.3,interactive=True)
 speed_factor = gr.Slider(minimum=0.50,maximum=2,step=0.05,label="Speed Factor",value=1.0,interactive=True)
                     gr.Markdown(f"**{title}**\n\n Dataset author: {author}")
                     gr.Image(f"images/{image}", label=None, show_label=False, width=300, show_download_button=False, container=False, show_share_button=False)
                 with gr.Column():
+                    #if there isn't any styles don't bother rendering the style window
+                    if(not referencedata[name][0]==None):
+                        rd = list(referencedata[name][0].keys())
+                        with gr.TabItem("Style using a preset"):
+                            sty = gr.Dropdown(
+                                label="Current style",
+                                choices=rd,
+                                value=rd[0],
+                                interactive=True
+                            )
+                    else:
+                        sty=gr.Textbox(value="none", visible=False, interactive=False)
                     with gr.TabItem("Style using a different audio"):
                         with gr.Column():
                             ref_audio_path = gr.Audio(label="Reference Audio", type="filepath")
+                            prompt_text = gr.Textbox(label="Reference Audio Text", interactive=True, placeholder="Leave blank to use no-text reference mode.")
+                            prompt_language = gr.Dropdown(label="Reference Audio Language", choices=["EN", "JP", "ZH", "ZH/EN", "JP/EN", "Automatic"], value="EN")
                 with gr.Column():
                     inference_button = gr.Button("Synthesize", variant="primary")
                     output = gr.Audio(label="Output")
                     inference_button.click(
                         inference,
+                        inputs=[n, gptmp, svmp, sty, text, text_language, ref_audio_path, prompt_text, prompt_language, top_k, top_p, temperature, how_to_cut, batch_size, speed_factor, split_bucket, fragment_interval, seed, keep_random, parallel_infer, repetition_penalty],
                         outputs=[output, seed]
                     )

images/amelia.png ADDED Viewed

images/mint.png ADDED Viewed

images/tenma.png ADDED Viewed

referenceaudio/Amelia/A1.wav ADDED Viewed

Binary file (672 kB). View file

referenceaudio/Amelia/A2.wav ADDED Viewed

Binary file (825 kB). View file

referenceaudio/Amelia/A3.wav ADDED Viewed

Binary file (622 kB). View file

referenceaudio/Amelia/A4.wav ADDED Viewed

Binary file (602 kB). View file

referenceaudio/Amelia/A5.wav ADDED Viewed

Binary file (809 kB). View file

referenceaudio/Mint/A1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bdbedb07a9024190463a940a8b4a1ed3dabc0f1031d765262f881585908a504
+size 1497732

referenceaudio/Mint/A2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48bdef64c6569cd949e77f47c683b499acc7afbea573ffe71cb290c5ed082da1
+size 1515006

referenceaudio/Mint/A3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:074c3b4ae81abc6a905d6bc82a5e1ad5d40af2fc0bf3cddb1f8cc6c51f27bf0e
+size 1597566

referenceaudio/Mint/A4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae4d7cbd69443a09595dd01ecdc11aade36bb10607233d664eb68bfb6fab5959
+size 1480444

referenceaudio/Mint/A5.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:717bd5ac5cece6ead0ccfb0f80fd67dc98c9a452b78c5506db307b6a3c7d2d4e
+size 1678204

referenceaudio/Mint/A6.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcc7d460127ab78b5ac94996d4a0431be1eb189f0e276ab9e7885c74008591fb
+size 1893246

referenceaudio/Tenma/A1.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3733afa17d7adf2e3c75b45e1c6c816ee358ef6c7ade428b8a1b6c6468544d2f
+size 1559166

referenceaudio/Tenma/A2.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:101f321ec072d758a9dfbef0c46f563a496950d88733f79cbdb7f035399389b0
+size 1751166

referenceaudio/Tenma/A3.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b306cf0edf1c63de596057fe51afdb2a0cace7a77b0f1643966c5209e418498a
+size 1593732

referenceaudio/Tenma/A4.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85c98f0ec0326ba1bc205a554780a6932294a47cadcd60b07eb027d774a6b2f0
+size 1578372

voicelist.json CHANGED Viewed

@@ -23,6 +23,28 @@
 	},
     "cover": "calli.png"
   },
   "Shiori": {
     "enable": true,
     "gpt_model_path": "ShioriNovella_GPT.ckpt",
@@ -113,6 +135,24 @@
 	},
     "cover": "pippa.png"
   },
   "Lia": {
     "enable": true,
     "gpt_model_path": "AsheliaRinkou_GPT.ckpt",
@@ -163,6 +203,30 @@
 	},
     "cover": "dokibird.png"
   },
   "Template": {
     "enable": false,
     "gpt_model_path": "model.ckpt",

 	},
     "cover": "calli.png"
   },
+  "Amelia": {
+    "enable": true,
+    "gpt_model_path": "AmeliaWatson_GPT.ckpt",
+	"sovits_model_path": "AmeliaWatson_SoVITS.pth",
+    "title": "Amelia Watson",
+	"modelauthor": "Kit Lemonfoot",
+	"styles":{
+		"Neutral": "A1.wav",
+		"Punctual": "A2.wav",
+		"Thinking": "A3.wav",
+		"Humored": "A4.wav",
+		"Explaining": "A5.wav"
+	},
+	"styletrans":{
+		"Neutral": "You don't like that one either It's, it's uh, I didn't like it, but I guess when I saw it at the time I was like, this is pretty believable.",
+		"Punctual": "Okay, I'm gonna count it down just in case there's anybody new to watch alongs This is how it's gonna work I'm gonna go three two one go and then on go everybody press play but not yet because that was a test!",
+		"Thinking": "No I'm probably not allergic to oranges I'm still I'm touching it, I'm eating it, I'm gonna rub it all over my face and then I'm gonna see if it gives me a rash.",
+		"Humored": "It would be interesting though sometimes I like going to I M D B and, uh, reading like hold on I'm gonna, I'll read it to you guys.",
+		"Explaining": "Had reservations on her next project, which was Speed, 1994 I've never seen it actually It says, one of the most, critically and financially successful movies of the year."
+	},
+    "cover": "amelia.png"
+  },
   "Shiori": {
     "enable": true,
     "gpt_model_path": "ShioriNovella_GPT.ckpt",
 	},
     "cover": "pippa.png"
   },
+  "Tenma": {
+    "enable": true,
+    "gpt_model_path": "TenmaMaemi_GPT.ckpt",
+	"sovits_model_path": "TenmaMaemi_SoVITS.pth",
+    "title": "Tenma Maemi",
+	"modelauthor": "Kit Lemonfoot",
+	"styles":{
+		"Neutral": "A1.wav",
+		"Questioning": "A2.wav",
+		"Preset 4": "A4.wav"
+	},
+	"styletrans":{
+		"Neutral": "They were talking about this scene in the movie I'm not pausing, but you see those five five five, cups of organs?",
+		"Questioning": "Actually why should I apologize? I love makeup and nails and fashion and gyaru fashion so I don't apologize. But this one artist, makeup artist who...",
+		"Preset 4": "Even if many want me and Pippa chan ship, me and Pippa chan have not more than, maybe sister, poi, neesan poi, relationship."
+	},
+    "cover": "tenma.png"
+  },
   "Lia": {
     "enable": true,
     "gpt_model_path": "AsheliaRinkou_GPT.ckpt",
 	},
     "cover": "dokibird.png"
   },
+  "Mint": {
+    "enable": true,
+    "gpt_model_path": "MintFantome_GPT.ckpt",
+	"sovits_model_path": "MintFantome_SoVITS.pth",
+    "title": "Mint Fantôme",
+	"modelauthor": "Kit Lemonfoot",
+	"styles":{
+		"Neutral": "A1.wav",
+		"Soft": "A2.wav",
+		"Thinking": "A3.wav",
+		"Explaining": "A4.wav",
+		"Preset 5": "A5.wav",
+		"Preset 6": "A6.wav"
+	},
+	"styletrans":{
+		"Neutral": "And like creating the chaos and, portraying it so well, when you are literally stuck in a sound booth the entire movie.",
+		"Soft": "Where we should start? Hold on give me one second Let me make sure that you guys can't hear this. Ah ba ba ba ba ba.",
+		"Thinking": "Let's see Okay Uh, Let me go back 10 seconds cause the, boop be boop ba starts really abruptly So let me go back.",
+		"Explaining": "I'm going to count down from five okay So I'll go five, four three two one and then I'll say start And that's when I'll press the button at start okay?",
+		"Preset 5": "Typing this, uh this movie as Ponypool. Every time. I always forget the T. I'm just like, Po, po.",
+		"Preset 6": "And I was I, I had to, I stopped. I was like I can't. I can't, I- No, No! No, What is what No. No no no. No."
+	},
+    "cover": "mint.png"
+  },
   "Template": {
     "enable": false,
     "gpt_model_path": "model.ckpt",