IngroupOutgroup2 / README.md
OBech's picture
Add SetFit model
0bfc577 verified
metadata
base_model: Maltehb/danish-bert-botxo
library_name: setfit
metrics:
  - accuracy
pipeline_tag: text-classification
tags:
  - setfit
  - sentence-transformers
  - text-classification
  - generated_from_setfit_trainer
widget:
  - text: >-
      Jeg håber jeg igen kan få opbakning og tillid til at blive
      folketingsmedlem. Jeg kæmper for hjemstavnen. Jeg bor og lever i
      Vestjylland.
  - text: >-
      Har man vendt Danmark ryggen og tilsluttet sig Islamisk Stat, så er man en
      landsforræder, og så skal man ikke tilbage til Danmark igen! Det handler
      om vores allesammens sikkerhed. Vi skal ikke lukke potentielle terrorister
      ind af hverken for- eller bagdøren ❤️🇩🇰
  - text: >-
      5. December 🎄julekalender hilsen 🤶🏻 Grønland gjorde et stort indtryk på
      mig. Naturen, de enorme afstande, den smukke klare himmel, nordlyset og
      ikke mindst kulturen og menneskene. Det var mit første besøg, men bestemt
      ikke det sidste. De historiske bånd mellem Grønland og Danmark er
      forbundet med både glæde og smerte. Men de har bragt os tættere på
      hinanden. Det er et stolt fangerfolk, som lever i pagt med naturen. Det
      mærker man tydeligt den dag i dag. Det kan være svært, at drive en
      virksomhed heroppe, for kommer der rensdyr eller andet godt, så er det ud
      og jage - nogen gange i 14 dage. På få generationer har man ‘modaniseret’
      den grønlandske samfundsmodel. Og når man er her, og taler med folk ude i
      bygderne, ja så forstå man bedre, hvorfor det måske er gået for stærkt ?
      En ting er sikkert. Selvstændighed for et folk med knap 50.000 indbyggere,
      vil jeg mene er at efterlade et land og et folk i uvished.
      Rigsfællesskabet er vigtigt, og det skal vi passe godt på. I respekt for
      hinanden. Der er så meget som binder os sammen. Jeg er taknemmelig for, at
      jeg fik lov til at opleve og møde så mange lokale - både indbyggere,
      embedsfolk, politikere, virksomhedsejere og mange flere. Der er behov for
      en større dansk forståelse af Grønland og om rigsfællesskabet. Defor har
      jeg også som et krav i de kommende medieforhandlinger, at DR forpligtes
      til at optage, producere, formidle et bredere og repræsentativt udsnit af
      rigsfælleskabet. God søndag😊
  - text: >-
      Vi har brug for, at 2021 bliver et år, hvor vi nærmer os livet, vi kendte
      ❤️ Som så mange andre, har jeg været meget nervøs for mine forældre. Jeg
      tror mange, med forældre oppe i årene kan genkende følelsen. Svært har det
      været ikke at kunne besøge dem i begyndelsen af coronaen. Senere i
      forløbet har vi set hinanden og taget hensyn. Jeg tror, vi alle vil huske
      2020, som året hvor vi måtte lide afsavn – store som små. Og året hvor vi
      savnede at mødes med andre mennesker og særligt vores nærmeste. Jeg føler
      virkelig med de mange, der bor på plejehjem og ikke har kunnet se deres
      pårørende. Det er hjerteskærende, at gamle mennesker som måske skal fejre
      deres sidste jul ikke kan være sammen med de nærmeste familiemedlemmer i
      deres egen lejlighed på plejehjemmet. I stedet skal de være i opstillede
      besøgsrum. Og ja, jeg hører og forstår alle argumenterne om smitte, og vi
      SKAL passe på. Ja, de gamle ER sårbare, men har man spurgt dem, hvad de
      helst vil? Mange unge har savnet deres kammerater, andre deres kollegaer
      på jobbet. Nogle savner deres job grundet fyringer, og andre er gået
      konkurs. Listen over savn og afsavn er lang. Nu venter vi på vaccinen. Og
      jeg ser frem til den kommer. Savn er en følelse, vi har brug for at føle
      mindre af i 2021 ❤️ 🎄⛄️ 23. december 🎅🏻 Julekalender ⛄️🎄
  - text: >-
      Jeg deltager ikke i forhandlingerne om psykiatrien i dag, da jeg ikke
      repræsenterer et parti eller har en masse mandatter. Men havde jeg gjort
      det, så ville jeg kræve et afsat beløb hvert år i de ti år. Det burde man
      kunne love hinanden.500 mio om året kunne det være. Dernæst sikre at PPR
      virker i kommunerne og man der kan sikre behandling for børn og unge uden
      de skal have en diagnose først. Så skal der sikrers samme rettigheder for
      psykisk sygdom som somatisk. Start med behandlingsgaranti for mennesker en
      en skizofren lidelse. Og gør nu det der virker rundt omkring. For der er
      steder som fungerer godt, man ønsker bare ikke lære af hinanden. Når der
      er mangel på personale, så tænk andre grupper. For at lave aktivteter på
      en afdeling behøver man ikke være en bestemt fagruppe. Og en akutlinje som
      nu mange taler om, se nu på de kommuner der har en. F.eks Greve hvor vi
      har prioriteret det. Men kommunene har brug for mere økonomi for at kunne
      løfte psykiatrien i. Men jeg håber de finder nogle løsninger og ønsker dem
      nogle gode forhandlinger.
inference: false
model-index:
  - name: SetFit with Maltehb/danish-bert-botxo
    results:
      - task:
          type: text-classification
          name: Text Classification
        dataset:
          name: Unknown
          type: unknown
          split: test
        metrics:
          - type: accuracy
            value: 0.7317073170731707
            name: Accuracy

SetFit with Maltehb/danish-bert-botxo

This is a SetFit model that can be used for Text Classification. This SetFit model uses Maltehb/danish-bert-botxo as the Sentence Transformer embedding model. A OneVsRestClassifier instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

  • Model Type: SetFit
  • Sentence Transformer body: Maltehb/danish-bert-botxo
  • Classification head: a OneVsRestClassifier instance
  • Maximum Sequence Length: 512 tokens

Model Sources

Evaluation

Metrics

Label Accuracy
all 0.7317

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("OBech/IngroupOutgroup2")
# Run inference
preds = model("Jeg håber jeg igen kan få opbakning og tillid til at blive folketingsmedlem. Jeg kæmper for hjemstavnen. Jeg bor og lever i Vestjylland.")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 1 94.5901 380

Training Hyperparameters

  • batch_size: (8, 8)
  • num_epochs: (2, 2)
  • max_steps: -1
  • sampling_strategy: oversampling
  • body_learning_rate: (2e-05, 1e-05)
  • head_learning_rate: 0.01
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: False
  • use_amp: False
  • warmup_proportion: 0.1
  • seed: 42
  • eval_max_steps: -1
  • load_best_model_at_end: True

Training Results

Epoch Step Training Loss Validation Loss
0.0005 1 0.2605 -
0.0235 50 0.3094 -
0.0471 100 0.2222 -
0.0706 150 0.2855 -
0.0941 200 0.1699 -
0.1176 250 0.1467 -
0.1412 300 0.152 -
0.1647 350 0.2407 -
0.1882 400 0.0391 -
0.2118 450 0.0165 -
0.2353 500 0.0009 -
0.2588 550 0.0004 -
0.2824 600 0.0014 -
0.3059 650 0.0006 -
0.3294 700 0.0001 -
0.3529 750 0.0007 -
0.3765 800 0.0002 -
0.4 850 0.0004 -
0.4235 900 0.0003 -
0.4471 950 0.0001 -
0.4706 1000 0.0001 -
0.4941 1050 0.0002 -
0.5176 1100 0.0002 -
0.5412 1150 0.0005 -
0.5647 1200 0.0002 -
0.5882 1250 0.0002 -
0.6118 1300 0.062 -
0.6353 1350 0.0004 -
0.6588 1400 0.0377 -
0.6824 1450 0.0001 -
0.7059 1500 0.0001 -
0.7294 1550 0.0002 -
0.7529 1600 0.0001 -
0.7765 1650 0.0009 -
0.8 1700 0.0002 -
0.8235 1750 0.0003 -
0.8471 1800 0.0001 -
0.8706 1850 0.0068 -
0.8941 1900 0.0002 -
0.9176 1950 0.0001 -
0.9412 2000 0.0 -
0.9647 2050 0.0002 -
0.9882 2100 0.0 -
1.0 2125 - 0.205
1.0118 2150 0.0164 -
1.0353 2200 0.0002 -
1.0588 2250 0.0 -
1.0824 2300 0.0001 -
1.1059 2350 0.0 -
1.1294 2400 0.0001 -
1.1529 2450 0.0001 -
1.1765 2500 0.036 -
1.2 2550 0.0078 -
1.2235 2600 0.0002 -
1.2471 2650 0.0088 -
1.2706 2700 0.0336 -
1.2941 2750 0.0 -
1.3176 2800 0.0001 -
1.3412 2850 0.0387 -
1.3647 2900 0.0 -
1.3882 2950 0.0042 -
1.4118 3000 0.0001 -
1.4353 3050 0.0 -
1.4588 3100 0.0001 -
1.4824 3150 0.0001 -
1.5059 3200 0.0001 -
1.5294 3250 0.002 -
1.5529 3300 0.0001 -
1.5765 3350 0.0055 -
1.6 3400 0.0002 -
1.6235 3450 0.0 -
1.6471 3500 0.0 -
1.6706 3550 0.0 -
1.6941 3600 0.0 -
1.7176 3650 0.0001 -
1.7412 3700 0.0347 -
1.7647 3750 0.0 -
1.7882 3800 0.0 -
1.8118 3850 0.0 -
1.8353 3900 0.0001 -
1.8588 3950 0.0 -
1.8824 4000 0.0001 -
1.9059 4050 0.0 -
1.9294 4100 0.0001 -
1.9529 4150 0.0073 -
1.9765 4200 0.0001 -
2.0 4250 0.0 0.2099
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.13
  • SetFit: 1.0.3
  • Sentence Transformers: 2.3.0
  • Transformers: 4.39.0
  • PyTorch: 2.1.2
  • Datasets: 2.20.0
  • Tokenizers: 0.15.2

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}