feat: Sprache × Eintragstyp-Visualisierung mit Typgruppen, CI-Farben, log-Skala & Prozentangaben

2025-06-08 00:44:57 +02:00
parent 8ab0596952
commit 3d4becb7c5
1 changed files with 212 additions and 1 deletions
--- a/analyse_netzwerk.py
+++ b/analyse_netzwerk.py
@ -60,7 +60,8 @@ from config_netzwerk import (
    export_fig_create_path_diagram,
    export_fig_create_sankey_diagram,
    export_fig_visualize_sources_status,
-    export_fig_create_wordcloud_from_titles
+    export_fig_create_wordcloud_from_titles,
+    export_fig_visualize_languages,
 )

 # Zentrale Exportfunktion für Visualisierungen
@ -1111,6 +1112,214 @@ def visualize_sources_status(bib_database):

 #############

+# Visualisierung der Sprachverteilung der Quellen
+def visualize_languages(bib_database):
+    """
+    Zeigt die Sprachverteilung der Quellen in einem Balkendiagramm an, inklusive Gruppierung nach Sprachgruppen.
+    """
+    language_counts = defaultdict(int)
+    for entry in bib_database.entries:
+        if 'language' in entry:
+            lang = entry['language'].strip().lower()
+            language_counts[lang] += 1
+
+    if not language_counts:
+        print("⚠️ Keine Sprachinformationen in den Einträgen gefunden.")
+        return
+
+    # Mapping von Spracheinträgen auf normalisierte ISO-Codes
+    languageMap = {
+        "de": "de-DE",
+        "de-de": "de-DE",
+        "deutsch": "de-DE",
+        "german": "de-DE",
+        "ger": "de-DE",
+        "en": "en-GB",
+        "en-gb": "en-GB",
+        "en-us": "en-US",
+        "englisch": "en-GB",
+        "eng": "en-GB",
+        "id": "id",
+        "ms": "ms",
+        "de-ch": "de-CH",
+        "de-a": "de-A",
+    }
+
+    # Sprachgruppen-Definition
+    language_groups = {
+        "de-DE": "Deutsch",
+        "de-A": "Deutsch",
+        "de-CH": "Deutsch",
+        "en-GB": "Englisch",
+        "en-US": "Englisch",
+        "id": "Sonstige",
+        "ms": "Sonstige"
+    }
+
+    # Funktion zur robusten Normalisierung
+    def normalize_lang(lang):
+        l = lang.strip().lower()
+        return languageMap.get(l, l)
+
+    # Normalisierte Sprachen und Zählung
+    norm_counts = defaultdict(int)
+    for lang, count in language_counts.items():
+        norm_lang = normalize_lang(lang)
+        norm_counts[norm_lang] += count
+
+    df = pd.DataFrame([
+        {'Sprache': lang, 'Anzahl': count} for lang, count in norm_counts.items()
+    ])
+    # Nach Häufigkeit absteigend sortieren
+    df = df.sort_values('Anzahl', ascending=False)
+
+    # Neue Spalte: Sprachgruppe
+    df['Gruppe'] = df['Sprache'].map(language_groups).fillna("Sonstige")
+
+    # Neue Spalte: Anteil (%) mit zwei Nachkommastellen
+    df["Anteil (%)"] = (df["Anzahl"] / df["Anzahl"].sum() * 100).round(2)
+
+    # Farbzuordnung für Gruppen
+    color_discrete_map = {
+        "Deutsch": colors["primaryLine"],
+        "Englisch": colors["secondaryLine"],
+        "Sonstige": colors["depthArea"]
+    }
+
+    fig = px.bar(
+        df,
+        x='Sprache',
+        y='Anzahl',
+        text='Anzahl',
+        color='Gruppe',
+        color_discrete_map=color_discrete_map,
+        title=f'Sprachverteilung der analysierten Quellen (n={sum(norm_counts.values())}, Stand: {current_date})',
+        hover_data=["Sprache", "Gruppe", "Anzahl", "Anteil (%)"],
+        barmode="stack"
+    )
+
+    layout = get_standard_layout(
+        title=fig.layout.title.text,
+        x_title='Sprachcode (ISO 639-1 + Ländercode)',
+        y_title='Anzahl der Quellen'
+    )
+    layout["font"] = {"size": 14, "color": colors['text']}
+    layout["title"] = {"font": {"size": 16}}
+    layout["margin"] = dict(b=160, t=60, l=40, r=40)
+    layout["autosize"] = True
+    # Ergänzung: Y-Achse logarithmisch skalieren
+    layout["yaxis_type"] = "log"
+    fig.update_layout(**layout)
+    fig.show(config={"responsive": True})
+    # Tabelle ausgeben
+    print(tabulate(df.sort_values("Anzahl", ascending=False), headers="keys", tablefmt="grid", showindex=False))
+    export_figure(fig, "visualize_languages", export_fig_visualize_languages, bib_filename)
+
+
+# Visualisierung der Verteilung von ENTRYTYPE innerhalb jeder Sprache
+def visualize_language_entrytypes(bib_database):
+    """
+    Zeigt die Verteilung von Eintragstyp (ENTRYTYPE) innerhalb jeder Sprache als gruppiertes Balkendiagramm.
+    """
+    # Sprach-Mapping wie in visualize_languages
+    languageMap = {
+        "de": "de-DE",
+        "de-de": "de-DE",
+        "deutsch": "de-DE",
+        "german": "de-DE",
+        "ger": "de-DE",
+        "en": "en-GB",
+        "en-gb": "en-GB",
+        "en-us": "en-US",
+        "englisch": "en-GB",
+        "eng": "en-GB",
+        "id": "id",
+        "ms": "ms",
+        "de-ch": "de-CH",
+        "de-a": "de-A",
+    }
+    # Funktion zur Normalisierung
+    def normalize_lang(lang):
+        l = lang.strip().lower()
+        return languageMap.get(l, l)
+
+    # Sammle (normierte Sprache, normierter Eintragstyp)
+    data = []
+    for entry in bib_database.entries:
+        lang = entry.get('language', '').strip()
+        if not lang:
+            continue
+        norm_lang = normalize_lang(lang)
+        entrytype = entry.get('ENTRYTYPE', '').strip().lower()
+        data.append({'Sprache': norm_lang, 'ENTRYTYPE': entrytype})
+
+    if not data:
+        print("⚠️ Keine Sprache/ENTRYTYPE-Daten in den Einträgen gefunden.")
+        return
+
+    df = pd.DataFrame(data)
+    # Gruppieren und zählen
+    grouped = df.groupby(['Sprache', 'ENTRYTYPE']).size().reset_index(name='Anzahl')
+    # Spalte ENTRYTYPE zu Eintragstyp umbenennen
+    grouped.rename(columns={'ENTRYTYPE': 'Eintragstyp'}, inplace=True)
+    # Anteil innerhalb Sprache (%)
+    grouped["Anteil innerhalb Sprache (%)"] = grouped.groupby("Sprache")["Anzahl"].transform(lambda x: (x / x.sum() * 100).round(2))
+
+    # Mapping Eintragstyp zu Typgruppe
+    eintragstyp_gruppen = {
+        'article': 'Artikelbasiert',
+        'inproceedings': 'Artikelbasiert',
+        'incollection': 'Buchbasiert',
+        'book': 'Buchbasiert',
+        'phdthesis': 'Graue Literatur',
+        'techreport': 'Graue Literatur',
+        'misc': 'Sonstige',
+        'unpublished': 'Sonstige'
+    }
+    grouped["Typgruppe"] = grouped["Eintragstyp"].map(eintragstyp_gruppen)
+
+    # Sortiere Sprachen nach Gesamtanzahl
+    sprache_order = grouped.groupby('Sprache')['Anzahl'].sum().sort_values(ascending=False).index.tolist()
+    # Eintragstypen nach Häufigkeit
+    eintragstyp_order = grouped.groupby('Eintragstyp')['Anzahl'].sum().sort_values(ascending=False).index.tolist()
+    # Typgruppen-Farben
+    typgruppen_colors = {
+        'Artikelbasiert': colors['primaryLine'],
+        'Buchbasiert': colors['depthArea'],
+        'Graue Literatur': colors['accent'],
+        'Sonstige': colors['negativeHighlight']
+    }
+    # Plot
+    fig = px.bar(
+        grouped,
+        x='Sprache',
+        y='Anzahl',
+        color='Typgruppe',
+        category_orders={'Sprache': sprache_order, 'Eintragstyp': eintragstyp_order, 'Typgruppe': list(typgruppen_colors.keys())},
+        color_discrete_map=typgruppen_colors,
+        barmode="group",
+        title=f'Verteilung der Eintragstypen pro Sprache (n={len(df)}, Stand: {current_date})',
+        text='Anzahl',
+        labels={'Sprache': 'Sprache', 'Eintragstyp': 'Eintragstyp', 'Anzahl': 'Anzahl', 'Typgruppe': 'Typgruppe'}
+    )
+    layout = get_standard_layout(
+        title=fig.layout.title.text,
+        x_title='Sprache (ISO 639-1 + Ländercode)',
+        y_title='Anzahl der Quellen'
+    )
+    layout["font"] = {"size": 14, "color": colors['text']}
+    layout["title"] = {"font": {"size": 16}}
+    layout["margin"] = dict(b=160, t=60, l=40, r=40)
+    layout["autosize"] = True
+    # Ergänzung: Y-Achse logarithmisch skalieren
+    layout["yaxis_type"] = "log"
+    fig.update_layout(**layout)
+    fig.show(config={"responsive": True})
+    print(tabulate(grouped.sort_values(["Sprache", "Eintragstyp"]), headers=["Sprache", "Eintragstyp", "Anzahl", "Anteil innerhalb Sprache (%)", "Typgruppe"], tablefmt="grid", showindex=False))
+    export_figure(fig, "visualize_language_entrytypes", export_fig_visualize_languages, bib_filename)
+
+#############
+
 # Funktion zur Erstellung einer Wortwolke aus Überschriften
 def create_wordcloud_from_titles(bib_database, stop_words):
    global bib_filename
@ -1157,4 +1366,6 @@ data = prepare_path_data(bib_database)
 create_path_diagram(data)
 create_sankey_diagram(bib_database)
 visualize_sources_status(bib_database)
+visualize_languages(bib_database)
+visualize_language_entrytypes(bib_database)
 create_wordcloud_from_titles(bib_database, stop_words)