Même si plusieurs technologies par intelligence artificielle seront abordées sur l'ensemble du site, la technique centrale utilisée par le framework s'appuie sur la sémantique distributionnelle par vectorisation de mots.
Dans cet article, nous irons du général au particulier afin d'intégrer les concepts et leurs noms dans un paysage technologique plus large.
Si la hiérarchie des notions et leur définition vous importent peu, rendez-vous directement à la section word embedding !
Intelligence artificielle & Traitement automatique du langage
L'intelligence artificielle est la discipline visant à reproduire des comportements humains à l'aide de mécanismes automatiques artificiels.
Ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l'intelligence humaine. (Wikipedia)
Une intelligence artificielle est donc un artifice qui agit comme si un être humain était à l'œuvre.
Le traitement automatique des langues ou traitement automatique du langage naturel, Natural Language Processing (NLP), rassemble les techniques d'analyse du langage parlé ou écrit. Il utilise de la statistique et surtout de plus en plus d'intelligence artificielle sémantique notamment par machine learning.
Machine Learning
Le Machine Learning est la discipline de l'intelligence artificielle qui développe des algorithmes mathématiques d'apprentissage. Au lieu d'être programmés pour "faire", ils sont programmés pour "apprendre à faire".
Pour mettre au point ce type d'algorithme, il faut coupler deux composants :
- Un modèle mathématique de prédiction : au départ une boîte noire naïve qui donne une réponse en fonction d'une question
- Un algorithme d'apprentissage par l'exemple qui mesure les erreurs commises par le modèle mathématique face à des exemples de données
Par passages successifs sur de nombreuses données (dataset), ce système s'entraîne par imitation en modifiant le modèle mathématique afin qu'il minimise ses erreurs. C'est donc un système qui apprend de ses erreurs dans le cadre limité d'un dataset d'apprentissage déterminé : si le dataset est faux ou biaisé ou non représentatif, l'intelligence artificielle sera fausse ou biaisée ou non représentative.