Spaces:

Dovakiins
/

qwerrwe

Build error

App Files Files Community

qwerrwe / src /axolotl /utils /data.py

Commit History

Merge pull request #276 from theobjectivedad/logging_enhancement

6f16c45
unverified

winglian commited on Jul 16, 2023

Fixed pre-commit problems, fixed small bug in logging_config to handle LOG_LEVEL env var

b1f4f7a

theobjectivedad commited on Jul 15, 2023

Add ability to pass 'name' argument to load_dataset

88089e8

chargoddard commited on Jul 14, 2023

Adding logging enhancement

553a86b

theobjectivedad commited on Jul 14, 2023

Support loading data files from a local directory

9bdd30c

utensil commited on Jun 21, 2023

Merge branch 'main' into flash-optimum

fd2c981
unverified

winglian commited on Jun 12, 2023

add new sharegpt, refactor prompt so it can be customized later, add exception if no data is processed

aac4b76

winglian commited on Jun 11, 2023

address PR feedback

0c6f928

winglian commited on Jun 10, 2023

add streaming dataset support for pretraining datasets

eea2731

winglian commited on Jun 10, 2023

more gpt-neox long ctx fixes

ab5cd28

winglian commited on Jun 1, 2023

more tweaks to do pre-training with bettertransformers

1210dc8

winglian commited on Jun 1, 2023

experimental expansion of ctx len

488a67d

winglian commited on May 31, 2023

Set to use cfg.seed or 42 for backward compat

2cfe9e9

Nanobit commited on Jun 8, 2023

fix batch size calculation

5a631b3

winglian commited on May 31, 2023

Fix security issue or ignore false positives

a1f9850

Nanobit commited on May 29, 2023

Apply isort then black

37293dc

Nanobit commited on May 29, 2023

Fix mypy typing

e9650d3

Nanobit commited on May 29, 2023

Black formatting

b832a0a

Nanobit commited on May 29, 2023

Refactor

4c0eddb

Nanobit commited on May 29, 2023

Fix data.py lint

cb7cd34

Nanobit commited on May 29, 2023

Lint and format

392dfd9

Nanobit commited on May 28, 2023

new hf_use_auth_token setting so login to hf isn't required

1c33eb8

winglian commited on May 28, 2023

update readme and add typehints

a4f1241

winglian commited on May 26, 2023

fix merge conflict failure, black format

7b5e762

winglian commited on May 26, 2023

another fix for shard and train split

2e56203

winglian commited on May 25, 2023

shard fix

ac79360

winglian commited on May 25, 2023

apply black formatting

ce34d64

winglian commited on May 25, 2023

more qlora support

e8aacfb

winglian commited on May 24, 2023

be able to use adam bnb 8bit and one cycle scheduler w fsdp

9493b1b

winglian commited on May 22, 2023

Update src/axolotl/utils/data.py for spelling

98a6781
unverified

Nanobit commited on May 22, 2023

make sure to use train split if loading from hf

607a4d3

winglian commited on May 22, 2023

fix new dataset prompt tokenizers

0f74464

winglian commited on May 21, 2023

pygmalion dataset prompts format, cached tokenized datasets should be hashed on the tokenizer too

2809f3f

winglian commited on May 21, 2023

tokenization fixes

4ea9a66

winglian commited on May 21, 2023

optionally be able to specify alpaca or chat style prompts

1d5ab84

winglian commited on May 20, 2023

concise multiple choice and tldr summarize

1365073

winglian commited on May 17, 2023

add alpaca multiple choice instruct dataset support

b46bc02

winglian commited on May 17, 2023

move filter to before saving so it doesn't happen everytime, update runpod manual script

0d28df0

winglian commited on May 14, 2023

whoops, gt vs lt

84c7bc4

winglian commited on May 12, 2023

optimize dataloading to use cache, fix model token embedding sizes

aa3c3f9

winglian commited on May 12, 2023

black formatting

2bc1a5b

winglian commited on May 10, 2023

fix conditional so alpaca doesn't choke

a27d594

winglian commited on May 10, 2023

Add CompletionPrompt type

cf68153

Nanobit commited on May 8, 2023

Jeopardy bot! (#17)

a12fb0a
unverified

winglian commited on May 8, 2023

fix dataset handling, support galactica

4a17a4c

winglian commited on Apr 24, 2023

tweaks to data loading, 8 bit adam, accelerate and deepspeed

097d367

winglian commited on Apr 22, 2023

shuffle and split dataset after save/load

4f2584f

winglian commited on Apr 20, 2023

fix sharegpt handling from hf, don't worry about loading llama if using earlier transformers release

8d43785

winglian commited on Apr 20, 2023

various bugfixes

94f5e41

winglian commited on Apr 19, 2023

WIP large refactor to make finetune script a little more manageable (#3)

6045345
unverified

winglian commited on Apr 18, 2023