Skip to content

Instantly share code, notes, and snippets.

@antoinefortin
Created April 12, 2018 21:52
Show Gist options
  • Save antoinefortin/47cf64e9ed5d33c167d18ddcda060cdf to your computer and use it in GitHub Desktop.
Save antoinefortin/47cf64e9ed5d33c167d18ddcda060cdf to your computer and use it in GitHub Desktop.
[Ai-Research]
Dossier de recherche sur 'analyse de texte francophone.'
Analyses, utilisations, observations et présentation des outils d'intelligence artificielle pour l'analyse de données textuels.
Recherche et rédaction par Antoine Fortin
Sous la suppervision de Julien Bigeault
Présentation de la problématique
Ayant un jeu de donnée textuel large, principalement de données francophone: tester les différents outils du marché afin de trouver la meilleure solution pour l'analyse textuelle. Nos données sont principalement des textes ayant une large variété de sujet et de types de rédaction, l'analyse de ceux-ci deviendront donc complexe et la rédactiond d'un réseaux de neurone à l'interne pour résoudre la problématique se verrait coûteuse en temps et en expertise.
Nous utiliserons donc divers outils des grandes compagnies(GAMFA) afin de permettre une rapidité d'éxécution et une précision de la sortie possible.
!!!!!! Utilisez un services en lignes afin de faire l'analyse textuels francophone""!!!!
Outil disponibles
L'utilisation d'outils (Interface de programmation Rest) proposé par les grands joueurs du domaine technologique afin de réduire le temps de développement et avoir une meilleure possibilité de scalabilité. L'un des buts principal est de permettre l'intégration du français pour résoudre ce type de probléme avec comme principal obstacle la barrière linguistique.
Le document suivant liste les différentes technologies disponibles afin de résoudre la tâche mentionné ci-dessus.
2.0 Présentation des différents outils
####Google
Résumé de l'utilisation:
Le service proposé par Google est sans aucun doute celui ayant démontré une qualité de service mais également de possibilités. De nombreuses fonctionnalités y sont offertes et sa simplicité et rapidité d'éxécution en fait un premier choix.
De plus, en utilisant ce service, nous avons également accès à une panoplie d'autres services de Google Cloud.
Prix:
Les services de Google sont offerts avec un crédit de 300$ lors de le création
d'un nouveau compte.
-Gratuit entre 0 et 5000 appels mensuellement à leur API.
Documentation
https://cloud.google.com/natural-language/?hl=fr
Les outils principaux:
Analyse de l'émotion basé sur la valeur textuelle
Analyse de l'intentation de rédaction d'une valeur textuelle
Analyse des mots et des champs sémantiques
Retournes une bonne quantité de catégorie assez accurate.
Les ++
-Francais supportés pour les valeur de retour
-Français supportés pour les valeurs d'entré (donc possibilités de mettre du texte francophone pour que l'API l'analyse)
Les --
Le fait de dépendre de Google
####Microsoft
Global:
API peut excitante, quelques fonctionnalités intéressante mais sans plus que d'autres n'offrent pas. L'utilisation du Français est supporté par leur services, mais rapidement, la complexité de ce langage porte confusion et l'utilisation de leur API pour une solution solide et constante n'est pas idéale. Plusieurs des services proposés par Windows sont fonctionnels, mais pas assez complets pour réellement en faire une utilisation poussée, par exemple, d'analyse de données en lien avec ce que l'on récolte de leur réponse.
Malgré ses services semblables à Google, l'utilisation des services de Microsoft ne sont pas a prioriser pour ce que nous voulons faire.
Résumé de l'utilisation:
Utilisation rapide à mettre en place, par contre beaucoup de leurs services ne sont pas optimisés pour avoir une réponse claire et précise. Prenons l'exemple du sentiment Analysis, qui retourne une valeur float entre 0 et 1.
Dans le cas de Google, ce même service retourne une liste d'émotion en lien un input donné.
Microsoft a un retard flagrant sur leur système de reconnaissances des sentiments. Comme leur documentation l'indique, leur système n'indique d'une seule et unique valeur de retour, un flottant entre 0 et 1 représentant si une donnée textuelle est plus porté à être positive ou négative. Mirosoft vende ce service comme une analyse de sentiment, quant au final, c'est n'est qu'un simple service de basse qualité manquant lamentablement d'innovation et de recherche qui ne fait qu'analyser le positivisme d'un échantillon donné.
Les outils principaux:
Les ++
-Microsoft offre d'autres services, notamment la reconnaissance visuel, un système de recherche et d'interprétation du langage (audio)
-Plusieurs langages supportés, PHP et Node notamment.
Les --
- La liste des endpoints est beaucoup moins nombreuses que ceux de Google
- La réponse en Json n'est pas de bonne qualité comparé à celle de Google.
IBM - Blue Mix - Watson
Global: L'un des avantages de L'API de Watson est le parteunariat entrepreneurial dont nous pouvons obtenir des bénéfices, notamment l'utilisation gratuite de leur API en developpement. En misant sur l'utilisation de Watson, nous pourrons suivre et conseiller l'équipe de New-York afin de proposer et les pousser à developper certains features. Les services offert par IBM se rapproche plus de ceux de Google que de Microsoft.
Watson propose de bonnes fonctionnalités pour l'analyse textuelle.
Listes des services proposés
Alchemy Language
-Ce service permet de trouver des entités relié a texte, par exemple des compagnies, des noms propres, des auteurs etc...
-Alchemy permet de récolter des métas-datas en lien avec la sémantique d'un contenu.
-Ce services opeut être utiliser afin de trouver le lien sémantiques entre des noms propres, des sentiment et mots.
-Nous pouvons GET ce que l'API nous fournis, mais également la nourrir de lien que nous pouvons faire.
** À chercher si les POSTS influences les modèles
Assistant de services (chat bot)
-Cet outil est un services qui combine les algorithmes d'apprentissage machine et du NLP afin de créer un ChatBot intelligent
-Les endpoints de ce service sont variés, l'un des features super utiles est le Intents. Un endpoint qui permet de renvoyer une valeur d'anticipation sur la réponse d'un user. Peut être utile dans la manipulation de réponse sur du contenu que l'on connait d'un utilisateur.
-Services de traduction
-Traduit une donnée d'une langue x vers une langue y
Natural Language Classifier
-Permet d'envoyer une donnée et d'en retirer une interprétation de classes(catégories). Retournes les grandes classifications d'une donnée.
Natural Language Understanding
-Permet d'envoyer du texte et d'en recevoir une valeur approximative d'une compréhension de l'algorithme
-Analyse de personnalité
-Retourne une analyse de personnalité d'un auteur.
-Analyse de tonalités
-Cette ressource se rapproche du sentiment analysis, mais retourne la tonalité du texte et non sa valeur émotive.
Exemple, un texte hyper-froid peut être écrit par quelqu'un de super joyeux.
Les ++
-Services gratuit pour la période de développement
-Plusieurs langages et très grande possibilité d'API endpoint
-Excellente documentation
-Partenaire de Havas a NyC
-Possibilité de trainé leur modèle avec de la nouvelle données**
Les --
- Français non-supportés pour plusieurs services:
*** Par contre, possibilité d'entrainer des modèles avec un jeu de données et le français est accepté
Data analytics
Partie 3: Test des APIS
Preuve de concept
Cette partie comprend les preuves de concept en utilisant les APIS décrites précédemment. Nous utiliseront le langage de propgrammation PHP afin de permettre une utilisation et implémentation facilement imbriquable dans le type de projets sur lesquels nous travaillons (Notamment la création d'un plugin wordpress qui ferait appels à un API et qui permettrait de faire une tâche donnée).
Partie 1 -> Échantillon de données utilisés
Nous utiliserons plusieurs données pour la présentation des différentes APIS, voici les jeux de données sur lesquels les modèles seront testés:
"Article recette"
"Article Politique"
"Article Math--> Papier style"
"Texte de résident de Laval(peu de qualité textuels et bcp de fautes)"
partie2 -> Démonstration des preuves de concepts
1-> Google
Connexion a l'API de google
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment