Skip to content

Instantly share code, notes, and snippets.

@duarteguilherme
Created February 21, 2017 15:17
Show Gist options
  • Save duarteguilherme/9578414b40fdcd7e5b5673bfb854c928 to your computer and use it in GitHub Desktop.
Save duarteguilherme/9578414b40fdcd7e5b5673bfb854c928 to your computer and use it in GitHub Desktop.
# Análise CNJ
library(tidyverse)
library(tidytext)
library(RCurl)
library(tm)
dados <- readRDS('~/Downloads/data_cnj (2).rds')
dados$ementa <- iconv(dados$ementa, from="utf8", to="ascii//translit")
dados$ementa <- tolower(dados$ementa)
dados$ementa <- gsub("[^a-z ]"," ",dados$ementa)
dados$ementa <- gsub(" +"," ",dados$ementa)
dados$ementa <- gsub(" [a-z]{1,2} ", "",dados$ementa)
`%p%` <- function(e1,e2) return(paste0(e1,e2))
str(dados)
dados$indice <- as.numeric(as.factor(dados$ementa %p% dados$tribunal %p% dados$estado_comarca %p% dados$Comarca %p% dados$num_processo))
which(table(dados$indice) > 1)
dados <- dados[!duplicated(dados$ementa),]
dados$indice <- as.numeric(as.factor(dados$ementa %p% dados$tribunal %p% dados$estado_comarca %p% dados$Comarca %p% dados$num_processo))
which(table(dados$indice) > 1)
dados <- dados[!duplicated(dados$ementa),]
str(dados)
library(RTextTools)
library(topicmodels)
docs <- Corpus(VectorSource(dados$ementa))
docs <- tm_map(docs, removeWords, stopwords("portuguese"))
dtm <- DocumentTermMatrix(docs)
rownames(dtm) <- dados$indice
saveRDS(dtm, "data_matrix.rds")
lda <- LDA(dtm, 20)
k <- length(unique(data$Topic.Code))
lda <- LDA(matrix, k)
matrix <- create_matrix(cbind(as.vector(dados$indice),
as.vector(data$ementa)),
language="portuguese", removeNumbers=TRUE, stemWords=TRUE, weighting=weightTf)
k <- length(unique(data$Topic.Code))
lda <- LDA(matrix, k)
docs <- Corpus(VectorSource(dados$ementa))
writeLines(as.character(docs[[31]]))
docs <-tm_map(docs,content_transformer(tolower))
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment