natural language processing

Events

images/02_events/digital%20humanitis.jpg#joomlaImage://local-images/02_events/digital humanitis.jpg?width=1200&height=450
Monday, August 7th, 2023 | 9:45 - 17:00 p.m

Named Entity Recognition für Geisteswissenschaftler:innen mit Stanford CoreNLP

Staats- und Universitätsbibliothek, Raum BT17a

Wie können wiederkehrende Einheiten, wie Personennamen oder Titel literarischer Werke in großen Textkorpora automatisch ausfindig und annotiert werden? Wie kann eine erste inhaltliche Erschließung literarischer Texte digital umgesetzt werden und auf welche Art und Weise lassen sich Verfahren des maschinellen Lernens für geisteswissenschaftliche Forschungsszenarien fruchtbar machen?

Diesen und anderen Fragen, die mit dem Einsatz digitaler Verfahren der Textanalyse einhergehen, werden wir im Rahmen des Workshops “Named Entity Recognition für Geisteswissenschaftler:innen mit Stanford CoreNLP” nachgehen. Dabei lernen Sie ein ausgewähltes Tool im Hands-On-Modus kennen, das in den Digital Humanities zur sog. Named Entity Recognition, also: die automatische Klassifikation/Annotation wiederkehrender Entitäten wie Personen, Werke, Orte und Organisationen, eingesetzt wird. Neben einer kurzen inhaltlichen Einführung in die Named Entity Recognition steht vor allem die praktische Anwendung der Methode im Vordergrund.

Dabei können Sie entweder direkt mit eigenen Texten arbeiten oder auf vorbereitete Materialien zurückgreifen. Technische Vorkenntnisse sind für die Teilnahme nicht vonnöten. Bringen Sie lediglich einen internetfähigen Laptop, für Ihre Forschung relevante Texte (optional) und eine große Portion Neugier auf digitale Verfahren der Textanalyse mit.

Referent:in: Marie Flüh (UHH). Die Teilnehmer:innenzahl ist beschränkt auf 15, daher wird um Anmeldung an forschungsdienste@sub.uni-hamburg.de gebeten.

images/02_events/ML%20Sprachverarbeitung%20SUB.jpg#joomlaImage://local-images/02_events/ML Sprachverarbeitung SUB.jpg?width=800&height=300
Wendsday, August 16th, 2023 | 17:00 - 18:30 p.m

Natural Language Processing für Digital Humanities - Grundlagen und neuste Entwicklungen

Staats- und Universitätsbibliothek, Raum BT17a

Verfahren des maschinellen Lernens im Kontext der Sprachverarbeitung sind momentan in aller Munde. Noch ist unklar, wie und wo genau Systeme wie etwa ChatGPT in der Forschung zum Einsatz kommen werden. Schon lange werden jedoch, auch in den Digital Humanities, mit regel-basierten und statistischen Verfahren Texte automatisiert analysiert. Für Forschende bleibt es wichtig ein Verständnis der Methoden zu entwickeln, um so jeweils die passende Technik zur Anwendung zu bringen und dabei insbesondere die Schwächen der Methoden zu berücksichtigen.

In seinem Vortrag beleuchtet Hans Ole Hatzel zunächst die Grundlagen der computergestützten Textverarbeitung und erklärt dabei von Tokens und Types bis hin zu Word Embeddings und Sentiment Analyse unterschiedliche etablierte Techniken. Einige Verfahren werden mit Beispielen aus den Digital Humanities hinterlegt, um neben den Methoden selbst auch zu verdeutlichen, wie sie konkret Anwendung finden. Am Schluss folgt ein Ausblick auf die Verwendung von Large Language Models, der Technologie hinter ChatGPT, in den Digital Humanities.

Referent:in: Hans Ole Hatzel (UHH)

Monday, May 27th, 2024 | 11:00 - 12:00 a.m.

Research talk of Minh Duc Bui

Von-Melle-Park 5, 20146 Hamburg, Room 3126

Part 1: "Adapter Fairness": "Current natural language processing (NLP) research tends to focus on only one or, less frequently, two dimensions -- e.g., performance, privacy, fairness, or efficiency -- at a time, which may lead to suboptimal conclusions and often overlooking the broader goal of achieving trustworthy NLP. Work on adapter modules focuses on improving performance and efficiency, with no investigation of unintended consequences on other aspects such as fairness. To address this gap, we conduct experiments on three text classification datasets by either (1) finetuning all parameters or (2) using adapter modules."

Part 2: "Knowledge Distillation vs. Pretraining from Scratch under a Fixed (Computation) Budget”: "Compared to standard language model (LM) pretraining (i.e., from scratch), Knowledge Distillation (KD) entails an additional forward pass through a teacher model that is typically substantially larger than the target student model. As such, KD in LM pretraining materially slows down throughput of pretraining instances vis-a-vis pretraining from scratch. Scaling laws of LM pretraining suggest that smaller models can close the gap to larger counterparts if trained on more data (i.e., processing more tokens)—and under a fixed computation budget, smaller models are able be process more data than larger models. We thus hypothesize that KD might, in fact, be suboptimal to pretraining from scratch for obtaining smaller LMs, when appropriately accounting for the compute budget.”

Part 3: Most likely, Duc will also discuss the ideas we have for his research stay with us (~Cross-cultural Hate Speech). Feedback is highly welcome!

Short Bio

I'm a PhD student at JGU Mainz, advised by Katharina von der Wense. My research focuses on analyzing and developing techniques that balance efficiency and fairness in NLP models. While numerous approaches have been developed to enhance the resource efficiency,
 their impact on model fairness remains largely unclear. Prior to this, I completed my bachelor's degree in "Mathematics in Business and Economics", and subsequently pursued a master's degree in "Data Science" with a strong emphasis on NLP. Following the completion
 of my master's degree, I transitioned into the industry, where I worked as a data scientist in the autonomous driving field.

Institution

  • UHH, BWL Faculty, Professorship of Data Science
images/02_events/T.Zesch%20In%20this%20talk.jpg#joomlaImage://local-images/02_events/T.Zesch In this talk.jpg?width=800&height=300
Monday, November 04th, 2024 | 17:15 p.m.

Why do I still need to grade all those exams? – Automatically scoring free-text student answers

Informatikum, Vogt-Kölln-Straße 30, Konrad-Zuse-Hörsaal (Raum B-201)

Prof. Dr. Torsten Zesch

Giving feedback on free-text answers (in the form of grades or helpful hints) is a core educational task. Despite a large body of NLP research on the topic, assisting teachers with this task remains challenging. In this talk, we outline the linguistic and external factors influencing the performance level that NLP methods may reach for a given question. However, even in settings where automatic performance rivals humans, there are various practical requirements often overlooked in research that hinder adoption in the classroom and beyond.

Torsten Zesch a full professor of Computational Linguistics at CATALPA (Center of Advanced Technology for Assisted Learning and Predictive Analytics), FernUniversität in Hagen, Germany. He holds a doctoral degree in computer science from Technische Universität Darmstadt and was the president of the German Society for Computational Linguistics and Language Technology (GSCL) from 2017 to 2023. His main research interests are in educational natural language processing, in particular the ways in which teaching and learning processes can be supported by language technology. For this purpose, he develops methods for the automatic analysis of textual and multimodal language data, with a focus on robust and explainable models.

Institutions

  • UHH, FB Informatik

People

images/03_personen/anne_lauscher.png#joomlaImage://local-images/03_personen/anne_lauscher.png?width=240&height=240

Anne Lauscher

Professor of Data Science
anne.lauscher@uni-hamburg.de
images/03_personen/debayan%201.jpg#joomlaImage://local-images/03_personen/debayan 1.jpg?width=364&height=364

Debayan Banerjee

research associate
debayan.banerjee@uni-hamburg.de
images/03_personen/dirk_hartung.jpg#joomlaImage://local-images/03_personen/dirk_hartung.jpg?width=500&height=500

Dirk Hartung

Executive Director, CLTDS
dirk.hartung@law-school.de
images/03_personen/gregor-wiedemann.jpg#joomlaImage://local-images/03_personen/gregor-wiedemann.jpg?width=360&height=360

Gregor Wiedemann

Senior Researcher Computational Social Science
Head of the Media Research Methods Lab (MRML)
g.wiedemann@leibniz-hbi.de
images/03_personen/marc_schulder.jpeg#joomlaImage://local-images/03_personen/marc_schulder.jpeg?width=481&height=489

Marc Schulder

Research Associate
IDGS
DGS-Korpus project
marc.schulder@uni-hamburg.de
images/03_personen/Stefan_Bonn.jpg#joomlaImage://local-images/03_personen/Stefan_Bonn.jpg?width=360&height=360

Stefan Bonn

Institute Director, Institute of Medical Systems Biology
Professor for Systems Biology
stefan.bonn@zmnh.uni-hamburg.de

Institutions

images/04_Institute/logo-lt.jpg#joomlaImage://local-images/04_Institute/logo-lt.jpg?width=360&height=361

Language Technology Group, Dept. of Informatics, UHH

Research group working on all aspects of natural language processing with a focus on semantics, human-in-the-loop methods and adaptive systems

images/04_Institute/hbi-logo.jpg#joomlaImage://local-images/04_Institute/hbi-logo.jpg?width=360&height=360

Media Research Methods Lab at the Leibniz-Institute for Media Research | Hans-Bredow-Institut

The Media Research Methods Lab (MRML) at the HBI combines the methodological expertise of the HBI in an organisational unit that focuses on linking established social science methods with novel digital procedures.

images/04_Institute/SUB-Logo.png#joomlaImage://local-images/04_Institute/SUB-Logo.png?width=272&height=185

Referat für Digitale Forschungsdienste, State and University Library Hamburg Carl von Ossietzky

Unit for the integration of digital humanities activities and services into the SUB portfolio

Universität Hamburg
Adeline Scharfenberg
Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein. 

Universität Hamburg
Adeline Scharfenberg
Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein. 

Universität Hamburg
Adeline Scharfenberg
Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein.