Wie oft und in welchem Zusammenhang kommt auf einer Webseite ein bestimmter Begriff vor. Es wird Bild und Text berücksichtigt
Funktioniert mit Titelseiten von Tageszeitungen FAZ, TAZ, Bild …
- Firefox Profil anlegen ohne Adblocker und alle Cookies erlaubt, genannt "screenshot"
- dieser EInzeiler;
firefox https://faz.net -P screenshot --browser --screenshot ~/Downloads/bild.png ; tesseract -l deu ~/Downloads/bild.png bild ; grep -E '[F,f]rau' out.txt