ó
<¿CVc           @  sÈ   d  Z  d d l m Z m Z d d l m Z d d l m Z e rU d d l m	 Z	 n d d l m
 Z
 y d d l Z Wn e k
 rŽ d Z n Xd e f d	 „  ƒ  YZ d
 „  Z e d k rÄ e ƒ  n  d S(   u˜  
A module for language identification using the TextCat algorithm.
An implementation of the text categorization algorithm
presented in Cavnar, W. B. and J. M. Trenkle, 
"N-Gram-Based Text Categorization".

The algorithm takes advantage of Zipf's law and uses 
n-gram frequencies to profile languages and text-yet to
be identified-then compares using a distance measure.

Language n-grams are provided by the "An Crubadan"
project. A corpus reader was created seperately to read
those files.

For details regarding the algorithm, see:
http://www.let.rug.nl/~vannoord/TextCat/textcat.pdf

For details about An Crubadan, see:
http://borel.slu.edu/crubadan/index.html
iÿÿÿÿ(   t   print_functiont   unicode_literals(   t   PY3(   t   trigrams(   t   maxsize(   t   maxintNt   TextCatc           B  s\   e  Z d Z i  Z d  Z d Z i  Z d „  Z d „  Z	 d „  Z
 d „  Z d „  Z d „  Z RS(	   u   <u   >c         C  s\   t  s t d ƒ ‚ n  d d l m } | |  _ x' |  j j ƒ  D] } |  j j | ƒ q> Wd  S(   Nu›   classify.textcat requires the regex module that supports unicode. Try '$ pip install regex' and see https://pypi.python.org/pypi/regex for further details.iÿÿÿÿ(   t   crubadan(   t   ret   EnvironmentErrort   nltk.corpusR   t   _corpust   langst	   lang_freq(   t   selfR   t   lang(    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt   __init__?   s    	c         C  s   t  j d d | ƒ S(   u+    Get rid of punctuation except apostrophes u   [^\P{P}\']+u    (   R   t   sub(   R   t   text(    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt   remove_punctuationL   s    c         C  sÅ   d d l  m } m } |  j | ƒ } | | ƒ } | ƒ  } x„ | D]| } t |  j | |  j ƒ } g  | D] }	 d j |	 ƒ ^ qh }
 x7 |
 D]/ } | | k r¯ | | c d 7<qŠ d | | <qŠ WqA W| S(   u)    Create FreqDist of trigrams within text iÿÿÿÿ(   t   word_tokenizet   FreqDistu    i   (   t   nltkR   R   R   R   t   _START_CHARt	   _END_CHARt   join(   R   R   R   R   t
   clean_textt   tokenst   fingerprintt   tt   token_trigram_tuplest   trit   token_trigramst   cur_trigram(    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt   profileP   s    	"c         C  s†   |  j  j | ƒ } d } | | k rm t | j ƒ  ƒ j | ƒ } t | j ƒ  ƒ j | ƒ } t | | ƒ } n t r| t } n t } | S(   um    Calculate the "out-of-place" measure between the
            text and language profile for a single trigram i    (	   R   R   t   listt   keyst   indext   absR   R   R   (   R   R   t   trigramt   text_profilet   lang_fdt   distt   idx_lang_profilet   idx_text(    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt	   calc_distd   s    	c         C  sp   i  } |  j  | ƒ } xT |  j j j ƒ  D]@ } d } x' | D] } | |  j | | | ƒ 7} q; W| | | <q( W| S(   uU    Calculate the "out-of-place" measure between
            the text and all languages i    (   R"   R   t   _all_lang_freqR$   R-   (   R   R   t	   distancesR"   R   t	   lang_distR'   (    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt
   lang_dists|   s    c         C  s+   |  j  | ƒ |  _ t |  j d |  j j ƒS(   u_    Find the language with the min distance
            to the text and return its ISO 639-3 code t   key(   R1   t   last_distancest   mint   get(   R   R   (    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt   guess_languageŽ   s    N(   t   __name__t
   __module__t   NoneR   t   fingerprintsR   R   R3   R   R   R"   R-   R1   R6   (    (    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyR   6   s   					c       	   C  sz  d d l  m }  d d d d d d d	 d
 d g	 } i	 d d 6d d 6d d 6d d 6d d 6d d 6d d 6d d 6d d 6} t ƒ  } xô | D]ì } |  j | ƒ } t | ƒ d } t t t | ƒ ƒ } d } x[ t d  | ƒ D]J }	 d }
 x1 t d  | |	 ƒ D] } |
 d! | |	 | 7}
 qö W| |
 7} qÖ Wt d" | d  d# !d$ ƒ | j	 | ƒ } t d% | | | f ƒ t d& d# ƒ q† Wd  S('   Niÿÿÿÿ(   t   udhru   Kurdish-UTF8u   Abkhaz-UTF8u   Farsi_Persian-UTF8u
   Hindi-UTF8u   Hawaiian-UTF8u   Russian-UTF8u   Vietnamese-UTF8u   Serbian_Srpski-UTF8u   Esperanto-UTF8u   Northern Kurdishu   kmru	   Abkhazianu   abku   Iranian Persianu   pesu   Hindiu   hinu   Hawaiianu   hawu   Russianu   rusu
   Vietnameseu   vieu   Serbianu   srpu	   Esperantou   epoi   u    i    u    u   Language snippet: iŒ   u   ...u   Language detection: %s (%s)u   #(
   R
   R;   R   t   sentst   lenR#   t   mapt   ranget   printR6   (   R;   R   t   friendlyt   tct   cur_langt   raw_sentencest   rowst   colst   samplet   it   cur_sentt   jt   guess(    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt   demo–   s8    	

	u   __main__(   t   __doc__t
   __future__R    R   t   nltk.compatR   t	   nltk.utilR   t   sysR   R   t   regexR   t   ImportErrorR9   t   objectR   RL   R7   (    (    (    sg   /private/var/folders/cc/xm4nqn811x9b50x1q_zpkmvdjlphkp/T/pip-build-FUwmDn/nltk/nltk/classify/textcat.pyt   <module>   s   
`	*