Instructions to use Sami92/XLM-R-Large-Disinfo-Narrative-Classifier with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use Sami92/XLM-R-Large-Disinfo-Narrative-Classifier with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-classification", model="Sami92/XLM-R-Large-Disinfo-Narrative-Classifier")# Load model directly from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("Sami92/XLM-R-Large-Disinfo-Narrative-Classifier") model = AutoModelForSequenceClassification.from_pretrained("Sami92/XLM-R-Large-Disinfo-Narrative-Classifier") - Notebooks
- Google Colab
- Kaggle
| license: cc-by-4.0 | |
| library_name: transformers | |
| language: | |
| - de | |
| pipeline_tag: text-classification | |
| # Model Card for Model ID | |
| This model is a fine-tuned version of [XLM-R Large](https://huggingface.co/FacebookAI/xlm-roberta-large). It is trained to classify common disinformation narratives, a task that is important to automated fact-checking. It was trained in a weakly-supervised fashion using GPT-4o. The datasets are German, however, the underlying model is multilingual. It was not tested how the model performs in other languages. For testing a sample of fact-checks from German fact-checking organizations was inspected and if the checked claim supported one of the narratives, the social media posts with the original text were extracted. | |
| ## Model Details | |
| Disinformation often follows a set of common narratives, such as "All immigrants are criminals". Fact-checkers from different German organizations provided a list of narratives that they commonly encounter. The trained model is able to recognize if a given text supports one of these narratives. | |
| ## Bias, Risks, and Limitations | |
| [More Information Needed] | |
| ## How to Get Started with the Model | |
| Use the code below to get started with the model. | |
| ```python | |
| from transformers import pipeline | |
| texts = [ | |
| 'Wer Klimaschutz sagt muss Bäume pflanzen und nicht für Windräder ganze Wälder roden!', | |
| 'Deutschland produziert nur 0,000028 Prozent des weltweiten Kohlendioxids (CO₂) in der Luft.', | |
| 'Liebe IMBFLINGE habt ihr euch schon die FRAGE gestellt wieso ihr KEIN BLUT mehr spenden dürft ???', | |
| 'Für diejenigen die meinen das die aktuellen Temperaturen etwas ungewöhnliches wären. Das war vor 44 Jahren !', | |
| 'Nach Angaben der Bundesanstalt für Arbeit sind 52,8 Prozent der Bürgergeldempfänger deutsche Staatsangehörige.', | |
| 'Windräder zerstören die Landschaft und den Wald. Der Wald nimmt mehr Co2 auf , als ein Windrad einsparen soll.', | |
| 'A law should be made immediately that tenants cannot be kicked out of their apartments for taking in migrants.', | |
| 'nicht zu Lasten der Umwelt... seit wann kümmern die Grünen wieder die Umwelt? Roden ganze Wälder für Windräder.', | |
| 'Der Stimmzettel ist ungültig, weil die obere Ecke abgeschnitten ist und die Urne sei nicht ausreichend versiegelt.', | |
| 'Zwei der wichtigsten Maßnahmen zum Infektionsschutz sind: Abstand halten und Maske tragen. Deren Wirksamkeit ist mehrfach bewiesen worden.', | |
| 'Stimmzettel, die gelocht oder deren Ecken beschädigt sind, sind ungültig. Ausweise werden ungültig gemacht, indem man die Ecken abschneidet. ', | |
| 'Amerikanisches Rotes Kreuz: Geimpfte Menschen können kein Blut spenden, weil der Impfstoff ihre natürlichen Antikörper vollständig zerstört...', | |
| 'Es gibt keinen wissenschaftlichen Nachweis dafür, dass Mobilfunkstrahlung unterhalb der geltenden Grenzwerte Menschen gesundheitlich schädigt. ', | |
| '5G beziehungsweise Mobilfunkstrahlung generell schadet der Gesundheit oder ist noch nicht genügend erforscht, um solchen Schaden auszuschließen.', | |
| 'Baerbock sprach sich nicht für die Abschaffung von Bargeld aus, sondern für ein Verbot von Bargeldkäufen in großem Maßstab - etwa von Immobilien.', | |
| 'Um das Land vor der globalen Erwärmung zu retten, hat Schottland gerade 14 Millionen Bäume abgeholzt, um Platz für 21 Windkraftanlagen zu schaffen. ', | |
| 'Ségolène Royal hat gesagt, Wolodymyr Selenskyj ist ein Lügner und die „Geschichten“ über die Entbindungsstation in Mariupol und Butscha sind „falsch“. ', | |
| 'Übrigens, abgesehen vom falsch gefalteten Wahlschein ist auch die Wahlurne nicht richtig zu... Damit müsste die Urne entleert und als ungültig erklärt werden...'] | |
| checkpoint = "Sami92/XLM-R-Large-Disinfo-Narrative-Classifier" | |
| tokenizer_kwargs = {'padding':True,'truncation':True,'max_length':512} | |
| narrative_classification = pipeline("text-classification", model = checkpoint, tokenizer =checkpoint, **tokenizer_kwargs, device="cuda") | |
| narrative_classification(texts) | |
| ``` | |
| ## Training Details | |
| ### Training Data | |
| The training dataset is a combination of two other datasets. First, a [synthetically generated dataset](https://huggingface.co/datasets/Sami92/german-disinformation-narratives-synthetic) for the given disinformation narratives. Second, a weakly-annotated dataset. For the weak annotation Telegram posts were used. The data was taken from Telegram. More specifically a sample from about 200 channels that have been subject to a fact-check from either Correctiv, dpa, Faktenfuchs or AFP. GPT-4o was prompted to identify which of the narratives is supported by the post if it supports any at all. The exact prompt can be found [here](https://huggingface.co/Sami92/XLM-R-Large-Disinfo-Narrative-Classifier/blob/main/GPT-4o-Prompt.txt). | |
| #### Training Hyperparameters | |
| - Epochs: 10 | |
| - Batch size: 16 | |
| - learning_rate: 2e-5 | |
| - weight_decay: 0.01 | |
| - fp16: True | |
| ## Evaluation | |
| ### Testing Data | |
| The test data consists of texts from social media posts that were linked in articles from German fact-checking organizations. In other words, the texts are claims that have been fact-checked. They were selected if they supported one of the disinformation narratives. Due to the aim of selecting naturally occurring claims, the dataset is imbalanced and not all classes are included. | |
| ### Results | |
| | Category | Precision | Recall | F1-Score | Support | | |
| |------------------------------------------------------------------------------------------------------------------------------|:---------:|:------:|:--------:|:-------:| | |
| | 5G verursacht Krankheiten für Menschen und Tiere. | 1.00 | 0.83 | 0.91 | 6 | | |
| | Ausländer sind krimineller als Deutsche, werden geringer bestraft und begehen mehr Straftaten, und das wird uns verheimlicht. | 1.00 | 0.67 | 0.80 | 3 | | |
| | Ausländer und Migranten bekommen mehr Leistungen oder Wohnungen vom Staat als Deutsche. | 1.00 | 1.00 | 1.00 | 9 | | |
| | Bargeld soll abgeschafft werden. | 0.67 | 1.00 | 0.80 | 2 | | |
| | Das Wetter war früher überhaupt nicht anders und Naturphänomene wie Vulkanausbrüche sind schuld am Klimawandel. | 1.00 | 1.00 | 1.00 | 7 | | |
| | Der Anteil des Menschen an den Treibhausgasen ist nur gering und die Wahrheit über den Klimawandel wird verheimlicht. | 1.00 | 1.00 | 1.00 | 7 | | |
| | Der WHO-Pandemievertrag hebt die Souveränität von Staaten auf und führt zu einer WHO-Diktatur. | 1.00 | 1.00 | 1.00 | 1 | | |
| | Der Westen hat ein Friedensabkommen zwischen Russland und der Ukraine verhindert. | 0.00 | 0.00 | 0.00 | 0 | | |
| | Deutschland wird von Faschisten regiert. | 1.00 | 1.00 | 1.00 | 1 | | |
| | Die Covid-19-Impfung ist nicht ausreichend erforscht und verursacht Nebenwirkungen. | 0.91 | 0.83 | 0.87 | 12 | | |
| | Die Regierung will gezielt Migranten ins Land holen und schickt Geld ins Ausland während unsere Leute leiden. | 0.67 | 1.00 | 0.80 | 2 | | |
| | Die Stimmzettel, Urnen und Briefwahl sind manipuliert und Wahlhelfer lassen Stimmen verschwinden. | 1.00 | 1.00 | 1.00 | 16 | | |
| | Die Wahrheit über die Corona-Maßnahmen, Todesopfer und Covid-Impfung wird verheimlicht. | 0.75 | 1.00 | 0.86 | 3 | | |
| | E-Mobilität ist schlechter für die Umwelt als Verbrenner Autos. | 1.00 | 1.00 | 1.00 | 2 | | |
| | Gewisse Lebensmittel, Leitungswasser oder Gentechnik sind gesundheitsschädlich und machen unfruchtbar. | 1.00 | 1.00 | 1.00 | 10 | | |
| | Hilfsgüter an die Ukraine werden in Wahrheit weggeworfen oder zerstört. | 1.00 | 1.00 | 1.00 | 3 | | |
| | Keins der Narrative trifft zu. | 0.00 | 0.00 | 0.00 | 0 | | |
| | Selensky ist korrupt und drogenabhängig und die Ukraine wird von Nazis regiert. | 1.00 | 0.33 | 0.50 | 3 | | |
| | Windräder töten hunderttausende Vögel, verursachen Luftwirbel und Dürre und es werden Wälder für die Windräder gerohdet. | 1.00 | 1.00 | 1.00 | 9 | | |
| | **Accuracy** | | | 0.94 | 96 | | |
| | **Macro avg** | 0.84 | 0.82 | 0.82 | 96 | | |
| | **Weighted avg** | 0.97 | 0.94 | 0.94 | 96 | |