Created
October 19, 2017 19:11
-
-
Save arthuralvim/afce9d0fff72d39ca714250c585defd0 to your computer and use it in GitHub Desktop.
LTK and Named Entity Recognition (Person) in Brazilian Portuguese
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
{ | |
"cells": [ | |
{ | |
"cell_type": "code", | |
"execution_count": 1, | |
"metadata": {}, | |
"outputs": [], | |
"source": [ | |
"from urllib.request import urlopen\n", | |
"\n", | |
"import nltk\n", | |
"from bs4 import BeautifulSoup\n", | |
"from nltk.corpus import floresta" | |
] | |
}, | |
{ | |
"cell_type": "markdown", | |
"metadata": {}, | |
"source": [ | |
"## Load raw text" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 2, | |
"metadata": {}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"'\\n\\nMarcelo Odebrecht – Wikipédia, a enciclopédia livre\\ndocument.documentElement.className = document.documentElement.className.replace( /(^|\\\\s)client-nojs(\\\\s|$)/, \"$1client-js$2\" );\\n(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({\"wgCanonicalNamespace\":\"\",\"wgCanonicalSpecialPageName\":false,\"wgNamespaceNumber\":0,\"wgPageName\":\"Marcelo_Odebrecht\",\"wgTitle\":\"Marcelo Odebrecht\",\"wgCurRevisionId\":49816898,\"wgRevisionId\":49816898,\"wgArticleId\":4783812,\"wgIsArticle\":true,\"wgIsRedirect\":false,\"wgAction\":\"view\",\"wgUserName\":null,\"wgUserGroups\":[\"*\"],\"wgCategories\":[\"Pessoas vivas\",\"!Imagem local idêntica à do Wikidata\",\"Nascidos em 1968\",\"Bilionários do Brasil\",\"Brasileiros de ascendência alemã\",\"Engenheiros civis do Brasil\",\"Condenados por corrupção\",\"Família Odebrecht\",\"Naturais de Salvador (Bahia)\",\"Pessoas condenadas na Operação Lava Jato\",\"Pessoas da Organização Odebrecht\"],\"wgBreakFrames\":false,\"wgPageContentLanguage\":\"pt\",\"wgPageContentModel\":\"wikitext\",\"wgSeparatorTransformTable\":[\",\\\\t.\",\"\\xa0\\\\t,\"],\"wgDigitTransformTable\":[\"\",\"\"],\"wgDefaultDateFormat\":\"dmy\",\"wgMonthNames\":[\"\",\"janeiro\",\"fevereiro\",\"março\",\"abril\",\"maio\",\"junho\",\"julho\",\"agosto\",\"setembro\",\"outubro\",\"novembro\",\"dezembro\"],\"wgMonthNamesShort\":[\"\",\"jan.\",\"fev.\",\"mar.\",\"abr.\",\"mai.\",\"jun.\",\"jul.\",\"ago.\",\"set.\",\"out.\",\"nov.\",\"dez.\"],\"wgRelevantPageName\":\"Marcelo_Odebrecht\",\"wgRelevantArticleId\":4783812,\"wgRequestId\":\"WeQgSgpAICkAAH0AE3kAAAAN\",\"wgIsProbablyEditable\":true,\"wgRelevantPageIsProbablyEditable\":true,\"wgRestrictionEdit\":[],\"wgRestrictionMove\":[],\"wgFlaggedRevsParams\":{\"tags\":{}},\"wgStableRevisionId\":null,\"wgWikiEditorEnabledModules\":{\"toolbar\":true,\"preview\":false,\"publish\":false},\"wgBetaFeaturesFeatures\":[],\"wgMediaViewerOnClick\":true,\"wgMediaViewerEnabledByDefault\":false,\"wgPopupsShouldSendModuleToUser\":true,\"wgPopupsConflictsWithNavPopupGadget\":false,\"wgVisualEditor\":{\"pageLanguageCode\":\"pt\",\"pageLanguageDir\":\"ltr\",\"pageVariantFallbacks\":\"pt\",\"usePageImages\":true,\"usePageDescriptions\":true},\"wgPreferredVariant\":\"pt\",\"wgMFExpandAllSectionsUserOption\":false,\"wgMFDisplayWikibaseDescriptions\":{\"search\":true,\"nearby\":true,\"watchlist\":true,\"tagline\":true},\"wgRelatedArticles\":null,\"wgRelatedArticlesUseCirrusSearch\":true,\"wgRelatedArticlesOnlyUseCirrusSearch\":false,\"wgULSCurrentAutonym\":\"português\",\"wgNoticeProject\":\"wikipedia\",\"wgCentralNoticeCookiesToDelete\":[],\"wgCentralNoticeCategoriesUsingLegacy\":[\"Fundraising\",\"fundraising\"],\"wgCategoryTreePageCategoryOptions\":\"{\\\\\"mode\\\\\":0,\\\\\"hideprefix\\\\\":20,\\\\\"showcount\\\\\":true,\\\\\"namespaces\\\\\":false}\",\"wgWikibaseItemId\":\"Q1893387\",\"wgCentralAuthMobileDomain\":false,\"wgCodeMirrorEnabled\":false,\"wgVisualEditorToolbarScrollOffset\":0,\"wgVisualEditorUnsupportedEditParams\":[\"undo\",\"undoafter\",\"veswitched\"],\"wgEditSubmitButtonLabelPublish\":true});mw.loader.state({\"ext.globalCssJs.user.styles\":\"ready\",\"ext.globalCssJs.site.styles\":\"ready\",\"site.styles\":\"ready\",\"noscript\":\"ready\",\"user.styles\":\"ready\",\"user\":\"ready\",\"user.options\":\"loading\",\"user.tokens\":\"loading\",\"ext.math.styles\":\"ready\",\"ext.cite.styles\":\"ready\",\"wikibase.client.init\":\"ready\",\"ext.visualEditor.desktopArticleTarget.noscript\":\"ready\",\"ext.uls.interlanguage\":\"ready\",\"ext.wikimediaBadges\":\"ready\",\"skins.vector.styles.experimental.print\":\"ready\",\"mediawiki.legacy.shared\":\"ready\",\"mediawiki.legacy.commonPrint\":\"ready\",\"mediawiki.sectionAnchor\":\"ready\",\"mediawiki.skinning.interface\":\"ready\",\"skins.vector.styles\":\"ready\",\"ext.globalCssJs.user\":\"ready\",\"ext.globalCssJs.site\":\"ready\"});mw.loader.implement(\"user.options@0v9az83\",function($,jQuery,require,module){mw.user.options.set({\"variant\":\"pt\"});});mw.loader.implement(\"user.tokens@1dqfd7l\",function ( $, jQuery, require, module ) {\\nmw.user.tokens.set({\"editToken\":\"+\\\\\\\\\",\"patrolToken\":\"+\\\\\\\\\",\"watchToken\":\"+\\\\\\\\\",\"csrfToken\":\"+\\\\\\\\\"});/*@nomin*/\\n\\n});mw.loader.load([\"ext.math.scripts\",\"ext.cite.a11y\",\"site\",\"mediawiki.page.startup\",\"mediawiki.user\",\"mediawiki.hidpi\",\"mediawiki.page.ready\",\"mediawiki.toc\",\"mediawiki.searchSuggest\",\"ext.gadget.Topicon\",\"ext.gadget.Metacaixa\",\"ext.gadget.TitleRewrite\",\"ext.gadget.ElementosOcultaveis\",\"ext.gadget.FeedbackHighlight\",\"ext.gadget.ReferenceTooltips\",\"ext.gadget.NewVillagePump\",\"ext.gadget.wikibugs\",\"ext.gadget.charinsert\",\"ext.gadget.EnhancedSearch\",\"ext.gadget.WikiMiniAtlas\",\"ext.gadget.PagesForDeletion\",\"ext.centralauth.centralautologin\",\"mmv.head\",\"mmv.bootstrap.autostart\",\"ext.popups\",\"ext.visualEditor.desktopArticleTarget.init\",\"ext.visualEditor.targetLoader\",\"ext.eventLogging.subscriber\",\"ext.wikimediaEvents\",\"ext.navigationTiming\",\"ext.uls.eventlogger\",\"ext.uls.init\",\"ext.uls.compactlinks\",\"ext.uls.interface\",\"ext.centralNotice.geoIP\",\"ext.centralNotice.startUp\",\"skins.vector.js\"]);});\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\t\\t\\n\\t\\t\\n\\t\\t\\n\\t\\t\\t\\n\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\n\\n\\t\\t\\tMarcelo Odebrecht\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\tOrigem: Wikipédia, a enciclopédia livre.\\n\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\tIr para:\\t\\t\\t\\t\\tnavegação, \\t\\t\\t\\t\\tpesquisa\\n\\t\\t\\t\\t\\n\\t\\t\\t\\t\\n\\nMarcelo Odebrecht\\n\\n\\n\\n\\n\\n\\nMarcelo Odebrecht, WEF Davos 2009.\\n\\n\\nNome completo\\nMarcelo Bahia Odebrecht\\n\\n\\nNascimento\\n18 de outubro de 1968\\xa0(48\\xa0anos)\\nSalvador, Bahia\\n\\n\\nNacionalidade\\nbrasileiro\\n\\n\\nFortuna\\nR$ 14 bilhões[1]\\n\\n\\nProgenitores\\nPai: Emílio Alves Odebrecht\\n\\n\\nParentesco\\nNorberto Odebrecht (avô)\\n\\n\\nCônjuge\\nIsabela Alvarez\\n\\n\\nFilho(s)\\n3\\n\\n\\nOcupação\\nEngenheiro civil e empresário\\n\\n\\nMarcelo Bahia Odebrecht (Salvador, 18 de outubro de 1968) é um engenheiro civil e empresário brasileiro.[2]\\nDesde dezembro de 2008 é presidente da Organização Odebrecht, uma das maiores empresas de engenharia e construção da América.\\nEm 8 de março de 2016, a Justiça Federal condenou Marcelo Odebrecht a 19 anos e quatro meses de prisão por crimes envolvendo o esquema de corrupção descoberto na estatal\\xa0Petrobras\\xa0pela Operação Lava Jato. O dono de uma das maiores empreiteiras do país foi condenado pelos crimes de corrupção ativa, lavagem de dinheiro e associação criminosa, sendo esta a primeira condenação de Marcelo Odebrecht.[3]\\nEm 1º de dezembro de 2016 fechou acordo de delação premiada junto com seu pai Emílio Odebrecht, e se comprometeu a pagar, através da Construtora Odebrecht 8,6 bilhões de reais a título de indenização por ter se envolvido em atos de corrupção.[4]\\n\\n\\n\\nÍndice\\n\\n\\n1 Carreira\\n2 Escândalo da Petrobras\\n3 Ver também\\n4 Referências\\n5 Ligações externas\\n\\n\\n\\nCarreira[editar | editar código-fonte]\\nNeto do pernambucano Norberto Odebrecht (fundador da Construtora Norberto Odebrecht) com a baiana Yolanda Alves, e filho do casal baiano Emílio Alves Odebrecht (fundador da Braskem) e Regina Bahia, tem três irmãos. É descendente direto do imigrante alemão Emil Odebrecht, que chegou a Santa Catarina na segunda metade do século XIX.\\nResponsável por negócios na construção pesada, petroquímica, açúcar, álcool, petróleo, gás, engenharia ambiental e empreendimentos imobiliários, Marcelo Odebrecht vinha comandando uma era de ouro para o grupo familiar, que tem 15 divisões e presença em 21 países. Ele sucedeu seu pai Emílio no fim de 2008, em meio à crise financeira global. A entrada de Marcelo na Odebrecht ocorreu em 1992, quando ele concluiu o curso de Engenharia na Bahia e trabalhou na construção de um prédio na capital do Estado, Salvador. Dois anos depois, trabalhou em uma hidrelétrica em Goiás e partiu para a Inglaterra, onde a companhia montava duas plataformas de petróleo.[5]\\nTeve uma breve passagem pelos Estados Unidos e retornou ao Brasil para atuar na área petroquímica. Em 2002, assumiu o setor de engenharia e construção da empresa. Em dezembro de 2008, aos 40 anos, ele chegou ao topo do conglomerado que lidera até hoje.[6]\\nMarcelo Odebrecht transformou o conglomerado no maior empregador do Brasil e em um dos cinco maiores grupos privados do país. Sua ascensão coincidiu com o segundo mandato do ex-presidente Luiz Inácio Lula da Silva, que tinha o objetivo de transformar o Brasil em uma potência global através da promoção de empresas nacionais.\\nAlguns dos maiores projetos da Odebrecht, como a construção de um porto em Cuba, estão sendo financiados com empréstimos do Banco Nacional de Desenvolvimento Econômico e Social (BNDES). Desde que Marcelo assumiu o comando da Odebrecht, o BNDES forneceu cerca de 5,8 bilhões de reais em empréstimos para financiar projetos do grupo no exterior.[7]\\nEscândalo da Petrobras[editar | editar código-fonte]\\nVer artigos principais: Operação Lava Jato, Lista de pessoas envolvidas na Operação Lava Jato e Lista de pessoas condenadas na Operação Lava Jato\\n\\n\\nMarcelo Odebrecht\\n\\n\\nCrime (s)\\ncorrupção ativa, associação criminosa e lavagem de dinheiro[3]\\n\\n\\nPena\\n19 anos e 4 meses[3]\\n\\n\\nSituação\\ncumprindo pena em prisão em regime fechado[3]\\n\\n\\nEm 19 de junho de 2015, foi preso em caráter preventivo durante a 14ª fase da Operação Lava Jato, batizada de\\xa0\"Erga Omnes\".[8][9][10] Essa expressão em latim é um jargão jurídico usado para expressar que uma regra vale para todos. A prisão, por ser de caráter preventivo, implica que o detido fica à disposição da justiça por tempo indefinido. Entre as várias acusações de que é alvo, Marcelo é acusado de, juntamente com a construtora Andrade Gutiérrez, pagar mais de 700 milhões de reais em propinas[11][12][13] para assegurar bilionários contratos em vários níveis do governo. Marcelo, assim como o presidente da Andrade Gutiérrez, Otávio Marques de Azevedo, também preso na mesma ocasião, teve parte dos seus bens bloqueados pela justiça.[14][15][16]\\nEm 8 de março de 2016 foi condenado a 19 anos e 4 meses de prisão pelos crimes de corrupção, lavagem de dinheiro e associação criminosa.[3] Em maio de 2016, o juiz Sérgio Moro rejeitou uma outra denúncia contra ele, por falta de provas, acusado pelo MPF de pagar propina para evitar a convocação na CPI da Petrobras.[17]\\nEm novembro de 2016, o Supremo Tribunal Federal manteve a prisão preventiva de Marcelo Odebrecht, rejeitando os embargos de declaração apresentados pela defesa do empresário.[18]\\nVer também[editar | editar código-fonte]\\n\\nConstrutora Norberto Odebrecht\\nOperação Lava Jato\\nLista de pessoas envolvidas na Operação Lava Jato\\nLista de pessoas condenadas na Operação Lava Jato\\n\\nReferências\\n\\n\\n↑ Listão dos homens mais ricos do Brasil. jornalopcao.com.br. Recuperado em 2 de julho 2015\\n↑ «A nova cara do país». EXAME.com. Consultado em 24 de junho de 2015\\xa0\\n↑ a b c d e «Justiça Federal condena Marcelo Odebrecht em ação da Lava Jato». G1. Consultado em 8 de março de 2016\\xa0\\n↑ «Emílio e Marcelo Odebrecht assinam acordo de delação na Lava Jato». Extra. Globo.com. Consultado em 8 de dezembro de 2016\\xa0\\n↑ «Submergindo com a Odebrecht». Folha Rondoniense. Consultado em 24 de junho de 2015\\xa0\\n↑ «Marcelo Odebrecht». Ultimo Segundo. iG. Consultado em 8 de dezembro de 2016\\xa0\\n↑ QUEM É MARCELO ODEBRECHT, UM DOS EXECUTIVOS PRESO NA 14ª FASE DA LAVA JATO. epocanegocios.globo.com. Recuperado em 2 de julho 2015\\n↑ FILIPE COUTINHO, THIAGO BRONZATTO E DIEGO ESCOSTEGUY (20 de junho 2015). «Marcelo Odebrechet é preso pela PF». Revista Época. Consultado em 20 de junho 2015\\xa0\\n↑ Rodrigo Rangel e Laryssa Borges (19 de junho de 2015). «PF deflagra 14a. fase da lava-jato e prende presidente da Odebrecht». Revista Veja. Consultado em 19 de junho de 2015\\xa0\\n↑ redação da Revista Época, com conteúdo do jornal O Estado de S. Paulo. (20 de junho de 2015). «QUEM É MARCELO ODEBRECHT, UM DOS EXECUTIVOS PRESO NA 14ª FASE DA LAVA JATO». Revista Época. Consultado em 21 de junho de 2015\\xa0\\n↑ REUTERS/Enrique Castro-Mendivil (19 de junho de 2015). «Propinas de Odebrecht e Gutierrez ultrapassam R$ 700 milhões». Revista Época. Consultado em 20 de junho de 2015\\xa0\\n↑ Redação ÉPOCA NEGÓCIOS ONLINE (19 de junho de 2015). «PROPINA PAGA PELA ODEBRECHT É ESTIMADA EM R$ 510 MILHÕES E PELA GUTIERREZ EM R$ 200 MILHÕES». Revista Época. Consultado em 21 de junho de 2015\\xa0\\n↑ Laryssa Borges (19 de junho de 2015). «Odebrecht e Andrade Gutierrez pagaram ao menos R$ 764 mil em propina, diz MP». Revista Veja. Consultado em 21 de junho de 2015\\xa0\\n↑ Laryssa Borges (19 de junho de 2015). «Justiça bloqueia bens de presidentes da Odebrecht e Andrade Gutierrez». Revista Veja. Consultado em 21 de junho de 2015\\xa0\\n↑ Fabio Rodrigues Pozzebom/Agência Brasil (19 de junho de 2015). «Presidentes presos de empreiteiras têm contas bloqueadas». Revista Exame. Consultado em 19 de junho de 2015\\xa0\\n↑ Redação ÉPOCA NEGÓCIOS ONLINE (19 de junho de 2016). «JUSTIÇA BLOQUEIA ATÉ R$ 20 MILHÕES DE CONTAS DOS PRESIDENTES DA ODEBRECHT, ANDRADE GUTIERREZ E MAIS OITO INVESTIGADOS». Revista Época. Consultado em 21 de junho de 2015\\xa0\\n↑ Mateus Coutinho, Julia Affonso e Ricardo Brandt (10 de maio de 2016). «Moro rejeita denúncia contra Marcelo Odebrecht por propinas em CPIs da Petrobrás». Estadão. Consultado em 2 de dezembro de 2016\\xa0\\n↑ Breno Pires (22 de novembro de 2016). «STF mantém prisão preventiva de Marcelo Odebrecht». Estadão. Consultado em 23 de novembro de 2016\\xa0\\n\\n\\nLigações externas[editar | editar código-fonte]\\n\\n\\n\\n\\nO Commons possui uma categoria contendo imagens e outros ficheiros sobre Marcelo Odebrecht\\n\\n\\nOdebrecht informa: Crenças compartilhadas, Recuperado em 21 de Junho 2015\\nHistória Organização Odebrecht, recuperado em 21 de Junho 2015\\n\\n\\n\\n\\n\\n\\n\\nv\\xa0•\\xa0e\\n\\nOrganização Odebrecht\\n\\n\\nSubsidiárias\\n\\n\\n\\n\\nEmpresas\\nprincipais\\n\\n\\n\\n\\n\\n\\nOdebrecht Defesa\\ne Tecnologia\\n\\n\\n\\n\\nConsórcio Baia de Sepetiba\\nItaguaí Construções Navais\\nMectron\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nOdebrecht Latinvest\\n\\n\\n\\n\\nConcessionária Ruta del Sol\\nOdebrecht Latinvest Operaciones y Mantenimiento\\nOdebrecht Latinvest Perú\\nRutas de Lima\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nOdebrecht Properties\\n\\n\\n\\n\\nArena Pernambuco Negócios e Investimentos S.A.\\nConsórcio Maracanã S.A.\\nFonte Nova Negócios e Participações S.A.\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nOdebrecht TransPort\\n\\n\\n\\n\\nAgrovia do Nordeste\\nConcessionária Bahia Norte\\nConcessionária do VLT Carioca\\nConcessionária Litoral Norte\\nConcessionária Mobilidade Anhanguera\\nConcessionária Move São Paulo\\nConsórcio RIO Galeão\\nEmbraport\\nLiquiport\\nLogum\\nOtima\\nRota das Bandeiras\\nRota das Fronteiras\\nRota do Atlântico\\nRota do Oeste\\nRota dos Coqueiros\\nSuperVia\\nViaQuatro\\nViaRio\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nEnseada Indústria Naval (50%)\\n\\n\\n\\n\\nEstaleiro Enseada do Paraguaçu\\nEstaleiro Inhaúma\\nEstaleiro São Roque\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nOutras\\n\\n\\n\\n\\nBraskem (38,25%)\\nConstrutora Norberto Odebrecht\\nOdebrecht Agroindustrial\\nOdebrecht Engenharia Industrial\\nOdebrecht Estados Unidos\\nOdebrecht Infraestrutura - África, Emirados Árabes e Portugal\\n\\nOdebrecht Angola\\nOdebrecht Portugal\\n\\n\\nOdebrecht Infraestrutura - América Latina\\nOdebrecht Infraestrutura - Brasil\\nOdebrecht Óleo e Gás\\nOdebrecht Realizações Imobiliárias\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nFundos de\\ninvestimento\\n\\n\\n\\n\\nOdebrecht Africa Fund\\nFundo Odebrecht Brasil\\nOdebrecht Latin Finance\\n\\nConcessionária Trasvase Olmos\\nCentral Hidrelétrica Chaglla\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nEmpresas\\nauxiliares\\n\\n\\n\\n\\nOdebrecht Comercializadora de Energia\\nOdebrecht Corretora de Seguros\\nOdebrecht Engenharia de Projetos\\nOdebrecht Previdência\\nOdebrecht Serviços de Exportação\\n\\n\\n\\n\\n\\n\\n\\n\\n\\nPessoas\\n\\n\\nEmil Odebrecht\\nEmílio Alves Odebrecht\\nEmílio Odebrecht\\nEmílio Odebrecht Jr.\\nMarcelo Odebrecht\\nNewton Sergio de Souza\\nNorberto Odebrecht\\n\\n\\n\\n\\nNegócios vendidos\\n\\n\\nConectCar\\nETH Bioenergia\\nOdebrecht Ambiental\\n\\nAquapolo\\nCetrel\\nFoz Águas 5\\nFoz do Brasil\\nSaneaqua\\nSANEATINS\\n\\n\\n\\n\\n\\n\\nPredecessores\\n\\n\\nCBPO\\nTENENGE\\n\\n\\n\\n\\nRelacionados\\n\\n\\nFundação Odebrecht\\nOperação Lava Jato\\n\\n\\n\\n\\n Organização Odebrecht\\n\\n\\n\\n\\n\\n\\n\\n\\n\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tObtida de \"https://pt.wikipedia.org/w/index.php?title=Marcelo_Odebrecht&oldid=49816898\"\\t\\t\\t\\t\\t\\n\\t\\t\\t\\tCategorias: Nascidos em 1968Bilionários do BrasilBrasileiros de ascendência alemãEngenheiros civis do BrasilCondenados por corrupçãoFamília OdebrechtNaturais de Salvador (Bahia)Pessoas condenadas na Operação Lava JatoPessoas da Organização OdebrechtCategorias ocultas: Pessoas vivas!Imagem local idêntica à do Wikidata\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t\\n\\t\\t\\tMenu de navegação\\n\\n\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tFerramentas pessoais\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\tNão autenticadoDiscussãoContribuiçõesCriar uma contaEntrar\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tDomínios\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tArtigo\\n\\t\\t\\t\\t\\t\\t\\tDiscussão\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\tVariantes\\n\\t\\t\\t\\t\\t\\t\\n\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tVistas\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tLer\\n\\t\\t\\t\\t\\t\\t\\tEditar\\n\\t\\t\\t\\t\\t\\t\\tEditar código-fonte\\n\\t\\t\\t\\t\\t\\t\\tVer histórico\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tMais\\n\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\tBusca\\n\\t\\t\\t\\t\\t\\t\\n\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\n\\t\\t\\t\\n\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\tNavegação\\n\\n\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tPágina principalConteúdo destacadoEventos atuaisEsplanadaPágina aleatóriaPortaisInformar um erroLoja da Wikipédia\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t\\t\\n\\t\\t\\tColaboração\\n\\n\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tBoas-vindasAjudaPágina de testesPortal comunitárioMudanças recentesManutençãoCriar páginaPáginas novasContatoDonativos\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t\\t\\n\\t\\t\\tImprimir/exportar\\n\\n\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tCriar um livroDescarregar como PDFVersão para impressão\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t\\t\\n\\t\\t\\tNoutros projetos\\n\\n\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tWikimedia Commons\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t\\t\\n\\t\\t\\tFerramentas\\n\\n\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tPáginas afluentesAlterações relacionadasCarregar ficheiroPáginas especiaisHipeligação permanenteInformações da páginaElemento WikidataCitar esta página\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t\\t\\n\\t\\t\\tNoutros idiomas\\n\\n\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\tDeutschEnglishEspañolفارسی\\t\\t\\t\\t\\t\\n\\t\\t\\t\\tEditar ligações\\t\\t\\t\\n\\t\\t\\n\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t Esta página foi editada pela última vez à(s) 16h05min de 10 de setembro de 2017.\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tEste texto é disponibilizado nos termos da licença Creative Commons - Atribuição - Compartilha Igual 3.0 Não Adaptada (CC BY-SA 3.0);\\npode estar sujeito a condições adicionais.\\nPara mais detalhes, consulte as condições de uso.\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tPolítica de privacidade\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tSobre a Wikipédia\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tAvisos gerais\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tProgramadores\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tDeclaração sobre cookies\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\tVersão móvel\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\t\\t\\t\\n\\t\\t\\t\\t\\t\\t\\n\\t\\t\\n\\t\\t(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({\"wgPageParseReport\":{\"limitreport\":{\"cputime\":\"0.528\",\"walltime\":\"0.596\",\"ppvisitednodes\":{\"value\":8329,\"limit\":1000000},\"ppgeneratednodes\":{\"value\":0,\"limit\":1500000},\"postexpandincludesize\":{\"value\":112551,\"limit\":2097152},\"templateargumentsize\":{\"value\":40656,\"limit\":2097152},\"expansiondepth\":{\"value\":20,\"limit\":40},\"expensivefunctioncount\":{\"value\":1,\"limit\":500},\"entityaccesscount\":{\"value\":1,\"limit\":400},\"timingprofile\":[\"100.00% 539.461 1 -total\",\" 56.58% 305.208 1 Predefinição:Info/Biografia\",\" 55.23% 297.946 2 Predefinição:Info\",\" 20.63% 111.306 1 Predefinição:Referências\",\" 16.41% 88.528 16 Predefinição:Citar_web\",\" 11.63% 62.743 1 Predefinição:Organização_Odebrecht\",\" 11.23% 60.595 1 Predefinição:Navbox\",\" 9.23% 49.812 1 Predefinição:Navbox/core\",\" 6.99% 37.703 1 Predefinição:Info/Criminoso\",\" 5.97% 32.197 2 Predefinição:Navbox_subgroup\"]},\"scribunto\":{\"limitreport-timeusage\":{\"value\":\"0.072\",\"limit\":\"10.000\"},\"limitreport-memusage\":{\"value\":2603384,\"limit\":52428800}},\"cachereport\":{\"origin\":\"mw1320\",\"timestamp\":\"20171016025819\",\"ttl\":3600,\"transientcontent\":true}}});});(window.RLQ=window.RLQ||[]).push(function(){mw.config.set({\"wgBackendResponseTime\":700,\"wgHostname\":\"mw1320\"});});\\n\\t\\n\\n'" | |
] | |
}, | |
"execution_count": 2, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"resp = urlopen('https://pt.wikipedia.org/wiki/Marcelo_Odebrecht')\n", | |
"html = resp.read()\n", | |
"raw_text = BeautifulSoup(html, 'html5lib').get_text()\n", | |
"raw_text" | |
] | |
}, | |
{ | |
"cell_type": "markdown", | |
"metadata": {}, | |
"source": [ | |
"Let's define a generator to extract people from entities:" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 3, | |
"metadata": {}, | |
"outputs": [], | |
"source": [ | |
"def get_people(entities):\n", | |
" yield from (\n", | |
" e for e in entities\n", | |
" if hasattr(e, 'label') and e.label() == 'PERSON'\n", | |
" )" | |
] | |
}, | |
{ | |
"cell_type": "markdown", | |
"metadata": {}, | |
"source": [ | |
"## Try with default NLTK stuff" | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 4, | |
"metadata": {}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"(Tree('PERSON', [('Marcelo', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Imagem', 'NNP')]),\n", | |
" Tree('PERSON', [('Wikidata', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasil', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasileiros', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasil', 'NNP')]),\n", | |
" Tree('PERSON', [('Família', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Pessoas', 'NNP')]),\n", | |
" Tree('PERSON', [('Pessoas', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP'), ('Origem', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP'), ('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Bahia', 'NNP'), ('Odebrecht', 'NNP'), ('Nascimento', 'NNP')]),\n", | |
" Tree('PERSON', [('Salvador', 'NNP')]),\n", | |
" Tree('PERSON', [('Bahia', 'NNP'), ('Nacionalidade', 'NNP')]),\n", | |
" Tree('PERSON', [('Fortuna', 'NNP'), ('R', 'NNP')]),\n", | |
" Tree('PERSON', [('Emílio', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP'), ('Parentesco', 'NNP'), ('Norberto', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Cônjuge', 'NNP'), ('Isabela', 'NNP'), ('Alvarez', 'NNP'), ('Filho', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Bahia', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Organização', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('América', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Emílio', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Carreira', 'NNP')]),\n", | |
" Tree('PERSON', [('Norberto', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Yolanda', 'NNP'), ('Alves', 'NNP')]),\n", | |
" Tree('PERSON', [('Emílio', 'NNP'), ('Alves', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Braskem', 'NNP')]),\n", | |
" Tree('PERSON', [('Regina', 'NNP'), ('Bahia', 'NNP')]),\n", | |
" Tree('PERSON', [('Emil', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Ele', 'NNP')]),\n", | |
" Tree('PERSON', [('Emílio', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP')]),\n", | |
" Tree('PERSON', [('Estado', 'NNP')]),\n", | |
" Tree('PERSON', [('Salvador', 'NNP')]),\n", | |
" Tree('PERSON', [('Dois', 'NNP')]),\n", | |
" Tree('PERSON', [('Goiás', 'NNP')]),\n", | |
" Tree('PERSON', [('Estados', 'NNP'), ('Unidos', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasil', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasil', 'NNP')]),\n", | |
" Tree('PERSON', [('Luiz', 'NNP'), ('Inácio', 'NNP'), ('Lula', 'NNP')]),\n", | |
" Tree('PERSON', [('Silva', 'NN')]),\n", | |
" Tree('PERSON', [('Alguns', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Banco', 'NNP'), ('Nacional', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Petrobras', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP')]),\n", | |
" Tree('PERSON', [('Lista', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP')]),\n", | |
" Tree('PERSON', [('Lista', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP'), ('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP')]),\n", | |
" Tree('PERSON', [('Erga', 'NNP'), ('Omnes', 'NNP')]),\n", | |
" Tree('PERSON', [('Entre', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP')]),\n", | |
" Tree('PERSON', [('Andrade', 'NNP'), ('Gutiérrez', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP')]),\n", | |
" Tree('PERSON', [('Andrade', 'NNP'), ('Gutiérrez', 'NNP')]),\n", | |
" Tree('PERSON', [('Otávio', 'NNP'), ('Marques', 'NNP')]),\n", | |
" Tree('PERSON', [('Azevedo', 'NNP')]),\n", | |
" Tree('PERSON', [('Sérgio', 'NNP'), ('Moro', 'NNP')]),\n", | |
" Tree('PERSON', [('Petrobras', 'NNP')]),\n", | |
" Tree('PERSON', [('Supremo', 'NNP'), ('Tribunal', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Norberto', 'NNP'), ('Odebrecht', 'NNP'), ('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP'), ('Lista', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP'), ('Lista', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP'), ('Jato', 'NNP'), ('Referências', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasil', 'NNP')]),\n", | |
" Tree('PERSON', [('Recuperado', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Lava', 'NNP'), ('Jato', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Lava', 'NNP'), ('Jato', 'NNP')]),\n", | |
" Tree('PERSON', [('Extra', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Folha', 'NNP'), ('Rondoniense', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Ultimo', 'NNP'), ('Segundo', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Recuperado', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrechet', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Época', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Rodrigo', 'NNP'), ('Rangel', 'NNP')]),\n", | |
" Tree('PERSON', [('Laryssa', 'NNP'), ('Borges', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Veja', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Época', 'NNP')]),\n", | |
" Tree('PERSON', [('Estado', 'NNP'), ('de', 'NNP'), ('S.', 'NNP'), ('Paulo', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Época', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Gutierrez', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Época', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Época', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Laryssa', 'NNP'), ('Borges', 'NNP')]),\n", | |
" Tree('PERSON', [('Andrade', 'NNP'), ('Gutierrez', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Veja', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Laryssa', 'NNP'), ('Borges', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Andrade', 'NNP'), ('Gutierrez', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Veja', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Fabio', 'NNP'), ('Rodrigues', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Exame', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Revista', 'NNP'), ('Época', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Mateus', 'NNP'), ('Coutinho', 'NNP')]),\n", | |
" Tree('PERSON', [('Julia', 'NNP'), ('Affonso', 'NNP')]),\n", | |
" Tree('PERSON', [('Ricardo', 'NNP'), ('Brandt', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Petrobrás', 'NNP')]),\n", | |
" Tree('PERSON', [('Estadão', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Breno', 'NNP'), ('Pires', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Estadão', 'NNP')]),\n", | |
" Tree('PERSON', [('Consultado', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Recuperado', 'NNP')]),\n", | |
" Tree('PERSON', [('Organização', 'NNP'), ('Odebrecht', 'NNP'), ('Subsidiárias', 'NNP'), ('Empresas', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP'), ('Defesa', 'NNP')]),\n", | |
" Tree('PERSON', [('Tecnologia', 'NNP'), ('Consórcio', 'NNP'), ('Baia', 'NNP')]),\n", | |
" Tree('PERSON', [('Sepetiba', 'NNP'), ('Itaguaí', 'NNP'), ('Construções', 'NNP'), ('Navais', 'NNP'), ('Mectron', 'NNP'), ('Odebrecht', 'NNP'), ('Latinvest', 'NNP'), ('Concessionária', 'NNP'), ('Ruta', 'NNP')]),\n", | |
" Tree('PERSON', [('Lima', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Arena', 'NNP'), ('Pernambuco', 'NNP'), ('Negócios', 'NNP')]),\n", | |
" Tree('PERSON', [('Maracanã', 'NNP'), ('S.A.', 'NNP'), ('Fonte', 'NNP'), ('Nova', 'NNP'), ('Negócios', 'NNP')]),\n", | |
" Tree('PERSON', [('Nordeste', 'NNP'), ('Concessionária', 'NNP'), ('Bahia', 'NNP'), ('Norte', 'NNP'), ('Concessionária', 'NNP')]),\n", | |
" Tree('PERSON', [('Paulo', 'NNP'), ('Consórcio', 'NNP')]),\n", | |
" Tree('PERSON', [('Galeão', 'NNP'), ('Embraport', 'NNP'), ('Liquiport', 'NNP'), ('Logum', 'NNP'), ('Otima', 'NNP'), ('Rota', 'NNP')]),\n", | |
" Tree('PERSON', [('Bandeiras', 'NNP'), ('Rota', 'NNP')]),\n", | |
" Tree('PERSON', [('Fronteiras', 'NNP'), ('Rota', 'NNP')]),\n", | |
" Tree('PERSON', [('Atlântico', 'NNP'), ('Rota', 'NNP')]),\n", | |
" Tree('PERSON', [('Oeste', 'NNP'), ('Rota', 'NNP')]),\n", | |
" Tree('PERSON', [('Coqueiros', 'NNP'), ('SuperVia', 'NNP')]),\n", | |
" Tree('PERSON', [('Enseada', 'NNP'), ('Indústria', 'NNP'), ('Naval', 'NNP')]),\n", | |
" Tree('PERSON', [('Estaleiro', 'NNP'), ('Enseada', 'NNP')]),\n", | |
" Tree('PERSON', [('Paraguaçu', 'NNP'), ('Estaleiro', 'NNP'), ('Inhaúma', 'NNP'), ('Estaleiro', 'NNP'), ('São', 'NNP'), ('Roque', 'NNP'), ('Outras', 'NNP'), ('Braskem', 'NNP')]),\n", | |
" Tree('PERSON', [('Emirados', 'NNP'), ('Árabes', 'NNP')]),\n", | |
" Tree('PERSON', [('Portugal', 'NNP'), ('Odebrecht', 'NNP'), ('Angola', 'NNP'), ('Odebrecht', 'NNP'), ('Portugal', 'NNP'), ('Odebrecht', 'NNP'), ('Infraestrutura', 'NNP')]),\n", | |
" Tree('PERSON', [('América', 'NNP'), ('Latina', 'NNP'), ('Odebrecht', 'NNP'), ('Infraestrutura', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasil', 'NNP'), ('Odebrecht', 'NNP'), ('Óleo', 'NNP')]),\n", | |
" Tree('PERSON', [('Gás', 'NNP'), ('Odebrecht', 'NNP'), ('Realizações', 'NNP'), ('Imobiliárias', 'NNP'), ('Fundos', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP'), ('Africa', 'NNP'), ('Fund', 'NNP'), ('Fundo', 'NNP'), ('Odebrecht', 'NNP'), ('Brasil', 'NNP'), ('Odebrecht', 'NNP'), ('Latin', 'NNP'), ('Finance', 'NNP'), ('Concessionária', 'NNP'), ('Trasvase', 'NNP'), ('Olmos', 'NNP'), ('Central', 'NNP'), ('Hidrelétrica', 'NNP'), ('Chaglla', 'NNP'), ('Empresas', 'NNP')]),\n", | |
" Tree('PERSON', [('Odebrecht', 'NNP'), ('Comercializadora', 'NNP')]),\n", | |
" Tree('PERSON', [('Energia', 'NNP'), ('Odebrecht', 'NNP'), ('Corretora', 'NNP')]),\n", | |
" Tree('PERSON', [('Seguros', 'NNP'), ('Odebrecht', 'NNP'), ('Engenharia', 'NNP')]),\n", | |
" Tree('PERSON', [('Projetos', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Exportação', 'NNP'), ('Pessoas', 'NNP'), ('Emil', 'NNP'), ('Odebrecht', 'NNP'), ('Emílio', 'NNP'), ('Alves', 'NNP'), ('Odebrecht', 'NNP'), ('Emílio', 'NNP'), ('Odebrecht', 'NNP'), ('Emílio', 'NNP'), ('Odebrecht', 'NNP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NNP'), ('Odebrecht', 'NNP'), ('Newton', 'NNP'), ('Sergio', 'NNP')]),\n", | |
" Tree('PERSON', [('Souza', 'NNP'), ('Norberto', 'NNP'), ('Odebrecht', 'NNP'), ('Negócios', 'NNP')]),\n", | |
" Tree('PERSON', [('Cetrel', 'NNP'), ('Foz', 'NNP')]),\n", | |
" Tree('PERSON', [('Brasil', 'NNP'), ('Saneaqua', 'NNP')]),\n", | |
" Tree('PERSON', [('Nascidos', 'NNP')]),\n", | |
" Tree('PERSON', [('Pessoas', 'NNP')]),\n", | |
" Tree('PERSON', [('Operação', 'NNP'), ('Lava', 'NNP')]),\n", | |
" Tree('PERSON', [('Organização', 'NNP'), ('OdebrechtCategorias', 'NNP')]),\n", | |
" Tree('PERSON', [('Pessoas', 'NNP')]),\n", | |
" Tree('PERSON', [('Imagem', 'NNP')]),\n", | |
" Tree('PERSON', [('Wikidata', 'NNP'), ('Menu', 'NNP')]),\n", | |
" Tree('PERSON', [('Não', 'NNP')]),\n", | |
" Tree('PERSON', [('Mais', 'NNP'), ('Busca', 'NNP'), ('Navegação', 'NNP'), ('Página', 'NNP')]),\n", | |
" Tree('PERSON', [('Wikipédia', 'NNP'), ('Colaboração', 'NNP')]),\n", | |
" Tree('PERSON', [('Noutros', 'NNP')]),\n", | |
" Tree('PERSON', [('Wikimedia', 'NNP'), ('Commons', 'NNP'), ('Ferramentas', 'NNP'), ('Páginas', 'NNP')]),\n", | |
" Tree('PERSON', [('Noutros', 'NNP')]),\n", | |
" Tree('PERSON', [('Esta', 'NNP')]),\n", | |
" Tree('PERSON', [('Este', 'NNP')]),\n", | |
" Tree('PERSON', [('Creative', 'NNP'), ('Commons', 'NNP')]),\n", | |
" Tree('PERSON', [('Para', 'NNP')]),\n", | |
" Tree('PERSON', [('Política', 'NNP')]),\n", | |
" Tree('PERSON', [('Versão', 'NNP')]))" | |
] | |
}, | |
"execution_count": 4, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"tokens = nltk.word_tokenize(raw_text)\n", | |
"tags = nltk.pos_tag(tokens)\n", | |
"entities = nltk.ne_chunk(tags)\n", | |
"people_nltk = tuple(get_people(entities))\n", | |
"people_nltk" | |
] | |
}, | |
{ | |
"cell_type": "markdown", | |
"metadata": {}, | |
"source": [ | |
"## Try training the model for Portuguese (with Floresta)\n", | |
"\n", | |
"[How to get these pickles](https://nltk-trainer.readthedocs.io/en/latest/train_tagger.html): `python train_tagger.py floresta`." | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 5, | |
"metadata": {}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"(Tree('PERSON', [('Marcelo', 'CJT+prop'), ('Odebrecht', 'H+prop')]),\n", | |
" Tree('PERSON', [('Marcelo', 'CJT+prop')]))" | |
] | |
}, | |
"execution_count": 5, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"tagger = nltk.data.load('floresta_aubt.pickle')\n", | |
"tags = tagger.tag(tokens)\n", | |
"entities = nltk.ne_chunk(tags)\n", | |
"people_nltk = tuple(get_people(entities))\n", | |
"people_nltk" | |
] | |
}, | |
{ | |
"cell_type": "markdown", | |
"metadata": {}, | |
"source": [ | |
"## Try training the model for Portuguese (with MacMorpho)\n", | |
"\n", | |
"[How to get these pickles](https://nltk-trainer.readthedocs.io/en/latest/train_tagger.html): `python train_tagger.py mac_morpho`." | |
] | |
}, | |
{ | |
"cell_type": "code", | |
"execution_count": 6, | |
"metadata": {}, | |
"outputs": [ | |
{ | |
"data": { | |
"text/plain": [ | |
"(Tree('PERSON', [('Marcelo', 'NPROP'), ('Odebrecht', 'NPROP')]),\n", | |
" Tree('PERSON', [('Marcelo', 'NPROP')]))" | |
] | |
}, | |
"execution_count": 6, | |
"metadata": {}, | |
"output_type": "execute_result" | |
} | |
], | |
"source": [ | |
"tagger = nltk.data.load('mac_morpho_aubt.pickle')\n", | |
"tags = tagger.tag(tokens)\n", | |
"entities = nltk.ne_chunk(tags)\n", | |
"people_nltk = tuple(get_people(entities))\n", | |
"people_nltk" | |
] | |
}, | |
{ | |
"cell_type": "markdown", | |
"metadata": {}, | |
"source": [ | |
"## Conclusions\n", | |
"\n", | |
"NLTK without any training return more names, but a lot of trash. The results with trained models miss lots of names, but shows no trash." | |
] | |
} | |
], | |
"metadata": { | |
"kernelspec": { | |
"display_name": "Python 3", | |
"language": "python", | |
"name": "python3" | |
}, | |
"language_info": { | |
"codemirror_mode": { | |
"name": "ipython", | |
"version": 3 | |
}, | |
"file_extension": ".py", | |
"mimetype": "text/x-python", | |
"name": "python", | |
"nbconvert_exporter": "python", | |
"pygments_lexer": "ipython3", | |
"version": "3.6.1" | |
} | |
}, | |
"nbformat": 4, | |
"nbformat_minor": 2 | |
} |
This file has been truncated, but you can view the full file.
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Äcnltk.tag.sequential | |
TrigramTagger | |
q )Åq}q(X _nqKX _taggersq]q(hcnltk.tag.sequential | |
BigramTagger | |
q)Åq}q(hKh]q (hcnltk.tag.sequential | |
UnigramTagger | |
q | |
)Åq}q(hKh]q | |
(hcnltk.tag.sequential | |
AffixTagger | |
q)Åq}q(h]q(hcnltk.tag.sequential | |
DefaultTagger | |
q)Åq}q(X _tagqX -None-qh]qhaubeX _context_to_tagq}q(X neiqX P+v-finqX fioqX H+nqX upeqX H+propqX 16hq X H+nq!X nemq"X CO+conj-cq#X √¥osq$X H+nq%X 432q&X >A+numq'X NMPq(X H+propq)X ourq*X H+nq+X D+q,X SC+adjq-X DRFq.X N<+propq/X tumq0X ACC+nq1X ,15q2X N<+numq3X DAFq4X APP+propq5X iriq6X N<+propq7X mq8X H+nq9X lenq:X H+propq;X _Fuq<X H+propq=X hozq>X SUBJ+propq?X teq@X | |