dklotz · August 29, 2015 14:14
diff --git a/FindDups.java b/FindDups.java
 import java.nio.file.Files;
 import java.nio.file.Paths;
 import com.google.common.base.CharMatcher;
 import com.google.common.base.Splitter;
 // ...

 public class FindDups {
 // ...
        public static void main(String[] args) throws Exception {
                String filePath = "/Users/david/Documents/fileee/es_queries/de-lemma-utf8.txt";
                
                List<String> lines = Files.readAllLines(Paths.get(filePath), StandardCharsets.UTF_8);
                Splitter splitter = Splitter.on(CharMatcher.WHITESPACE).trimResults().omitEmptyStrings();
                
                int problemCount = 0;
                
                for (String line : lines) {
                    List<String> splitted = splitter.splitToList(line);
                    if (splitted.size() != 2) {
                        log.warn("Line did not contain 2 tokens: {}", splitted);
                        continue;
                    }
                    
                    String left = splitted.get(0).toLowerCase(Locale.GERMAN);
                    String right = splitted.get(1).toLowerCase(Locale.GERMAN);
                    
                    // log.debug("Left: '{}', right: '{}'", left, right);
                    if (left.equals(right)) {
                        log.warn("Problematic line found: {}", line);
                        problemCount++;
                    }
                }
                
                log.info("{} lines were problematic.", problemCount);
        }
 }
	import java.nio.file.Files;
	import java.nio.file.Paths;
	import com.google.common.base.CharMatcher;
	import com.google.common.base.Splitter;
	// ...

	public class FindDups {
	// ...
	public static void main(String[] args) throws Exception {
	String filePath = "/Users/david/Documents/fileee/es_queries/de-lemma-utf8.txt";

	List<String> lines = Files.readAllLines(Paths.get(filePath), StandardCharsets.UTF_8);
	Splitter splitter = Splitter.on(CharMatcher.WHITESPACE).trimResults().omitEmptyStrings();

	int problemCount = 0;

	for (String line : lines) {
	List<String> splitted = splitter.splitToList(line);
	if (splitted.size() != 2) {
	log.warn("Line did not contain 2 tokens: {}", splitted);
	continue;
	}

	String left = splitted.get(0).toLowerCase(Locale.GERMAN);
	String right = splitted.get(1).toLowerCase(Locale.GERMAN);

	// log.debug("Left: '{}', right: '{}'", left, right);
	if (left.equals(right)) {
	log.warn("Problematic line found: {}", line);
	problemCount++;
	}
	}

	log.info("{} lines were problematic.", problemCount);
	}
	}
No results found