tabby/crates/tabby-inference/src/decoding.rs

use std::sync::Arc;

use dashmap::DashMap;
use regex::Regex;
use tokenizers::tokenizer::Tokenizer;

pub struct DecodingFactory {
    stop_regex_cache: DashMap<&'static Vec<&'static str>, Regex>,
}

fn reverse<T>(s: T) -> String
where
    T: Into<String>,
{
    s.into().chars().rev().collect()
}

impl Default for DecodingFactory {
    fn default() -> Self {
        Self {
            stop_regex_cache: DashMap::new(),
        }
    }
}

impl DecodingFactory {
    pub fn create_incremental_decoding(
        &self,
        tokenizer: Arc<Tokenizer>,
        input_token_ids: &[u32],
        stop_words: &'static Vec<&'static str>,
    ) -> IncrementalDecoding {
        IncrementalDecoding::new(tokenizer, self.get_re(stop_words), input_token_ids)
    }

    fn get_re(&self, stop_words: &'static Vec<&'static str>) -> Option<Regex> {
        if stop_words.is_empty() {
            None
        } else {
            let mut re = self.stop_regex_cache.get(stop_words);
            if re.is_none() {
                self.stop_regex_cache
                    .insert(stop_words, create_stop_regex(stop_words));
                re = self.stop_regex_cache.get(stop_words);
            }
            re.map(|x| x.value().clone())
        }
    }
}

fn create_stop_regex(stop_words: &[&str]) -> Regex {
    let tokens: Vec<String> = stop_words.iter().map(|x| reverse(*x)).collect();

    // (?m) enables multi-line matching mode.
    // \A means absolute begins of string.
    let regex_string = r"(?m)\A".to_owned() + &tokens.join("|");
    Regex::new(&regex_string).unwrap()
}

pub struct IncrementalDecoding {
    tokenizer: Arc<Tokenizer>,
    stop_re: Option<Regex>,

    token_ids: Vec<u32>,
    prefix_offset: usize,
    read_offset: usize,

    reversed_text: String,
}

impl IncrementalDecoding {
    pub fn new(tokenizer: Arc<Tokenizer>, stop_re: Option<Regex>, input_token_ids: &[u32]) -> Self {
        let text = tokenizer
            .decode(input_token_ids, /* skip_special_token = */ true)
            .expect("Cannot decode token from tokenizer.");
        Self {
            tokenizer,
            stop_re,
            token_ids: input_token_ids.to_owned(),
            prefix_offset: 0,
            read_offset: input_token_ids.len(),
            reversed_text: reverse(text),
        }
    }

    pub fn next_token(&mut self, token_id: u32) -> Option<String> {
        let skip_special_token = true;
        self.token_ids.push(token_id);

        let prefix_text = self
            .tokenizer
            .decode(
                &self.token_ids[self.prefix_offset..self.read_offset],
                skip_special_token,
            )
            .expect("Cannot decode token from tokenizer.");

        let new_text = self
            .tokenizer
            .decode(&self.token_ids[self.prefix_offset..], skip_special_token)
            .expect("Cannot decode token from tokenizer.");

        let new_text = if new_text.len() > prefix_text.len() && !new_text.ends_with('<27>') {
            self.prefix_offset = self.read_offset;
            self.read_offset = self.token_ids.len();
            &new_text[prefix_text.len()..]
        } else {
            ""
        };

        if !new_text.is_empty() {
            self.reversed_text = reverse(new_text) + &self.reversed_text;

            if let Some(re) = &self.stop_re {
                if re.find(&self.reversed_text).is_some() {
                    return None;
                }
            }
        }

        Some(new_text.to_owned())
    }
}
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
+								use std::sync::Arc;
 								use dashmap::DashMap;
 								use regex::Regex;
 								use tokenizers::tokenizer::Tokenizer;
 								pub struct DecodingFactory {
 								    stop_regex_cache: DashMap<&'static Vec<&'static str>, Regex>,
 								}
 								fn reverse<T>(s: T) -> String
 								where
 								    T: Into<String>,
 								{
 								    s.into().chars().rev().collect()
 								}
 								impl Default for DecodingFactory {
 								    fn default() -> Self {
 								        Self {
 								            stop_regex_cache: DashMap::new(),
 								        }
 								    }
 								}
 								impl DecodingFactory {
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
+								    pub fn create_incremental_decoding(
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
+								        &self,
 								        tokenizer: Arc<Tokenizer>,
 								        input_token_ids: &[u32],
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
+								        stop_words: &'static Vec<&'static str>,
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
+								    ) -> IncrementalDecoding {
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
+								        IncrementalDecoding::new(tokenizer, self.get_re(stop_words), input_token_ids)
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
+								    }
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
+								    fn get_re(&self, stop_words: &'static Vec<&'static str>) -> Option<Regex> {
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
+								        if stop_words.is_empty() {
 								            None
 								        } else {
 								            let mut re = self.stop_regex_cache.get(stop_words);
 								            if re.is_none() {
 								                self.stop_regex_cache
 								                    .insert(stop_words, create_stop_regex(stop_words));
 								                re = self.stop_regex_cache.get(stop_words);
 								            }
 								            re.map(|x| x.value().clone())
 								        }
 								    }
 								}
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
+								fn create_stop_regex(stop_words: &[&str]) -> Regex {
 								    let tokens: Vec<String> = stop_words.iter().map(|x| reverse(*x)).collect();
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
 								    // (?m) enables multi-line matching mode.
 								    // \A means absolute begins of string.
 								    let regex_string = r"(?m)\A".to_owned() + &tokens.join("|");
 								    Regex::new(&regex_string).unwrap()
 								}
 								pub struct IncrementalDecoding {
 								    tokenizer: Arc<Tokenizer>,
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
+								    stop_re: Option<Regex>,
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
 								    token_ids: Vec<u32>,
 								    prefix_offset: usize,
 								    read_offset: usize,
 								    reversed_text: String,
 								}
 								impl IncrementalDecoding {
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
+								    pub fn new(tokenizer: Arc<Tokenizer>, stop_re: Option<Regex>, input_token_ids: &[u32]) -> Self {
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
+								        let text = tokenizer
 								            .decode(input_token_ids, /* skip_special_token = */ true)
 								            .expect("Cannot decode token from tokenizer.");
 								        Self {
 								            tokenizer,
 								            stop_re,
 								            token_ids: input_token_ids.to_owned(),
 								            prefix_offset: 0,
 								            read_offset: input_token_ids.len(),
 								            reversed_text: reverse(text),
 								        }
 								    }
 								    pub fn next_token(&mut self, token_id: u32) -> Option<String> {
 								        let skip_special_token = true;
 								        self.token_ids.push(token_id);
 								        let prefix_text = self
 								            .tokenizer
 								            .decode(
 								                &self.token_ids[self.prefix_offset..self.read_offset],
 								                skip_special_token,
 								            )
 								            .expect("Cannot decode token from tokenizer.");
 								        let new_text = self
 								            .tokenizer
 								            .decode(&self.token_ids[self.prefix_offset..], skip_special_token)
 								            .expect("Cannot decode token from tokenizer.");
 								        let new_text = if new_text.len() > prefix_text.len() && !new_text.ends_with('<27>') {
 								            self.prefix_offset = self.read_offset;
 								            self.read_offset = self.token_ids.len();
 								            &new_text[prefix_text.len()..]
 								        } else {
 								            ""
 								        };
 								        if !new_text.is_empty() {
 								            self.reversed_text = reverse(new_text) + &self.reversed_text;
-												refactor: cleanup chat api make it message oriented (#497)

* refactor: refactor into /chat/completions api

* Revert "feat: support request level stop words (#492)"

This reverts commit 0d6840e37212267b581c8f99560648341a9c4f45.

* feat: adjust interface

* switch interface in tabby-playground

* move to chat/prompt, add unit test

* update interface
											
										
										
											2023-10-02 15:39:15 +00:00
 								            if let Some(re) = &self.stop_re {
-												fix: correct Decoding behavior in incremental manner (#491)

* feat: implement IncrementalDecoding

* refactor: use IncrementalDecoding for ctranslate2

* refactor: rename StopWords to DecodingFactory

* refactor: move decoding logic to tabby-inference

* feat: optimize decoding range

* cleanup
											
										
										
											2023-09-29 13:06:47 +00:00
+								                if re.find(&self.reversed_text).is_some() {
 								                    return None;
 								                }
 								            }
 								        }
 								        Some(new_text.to_owned())
 								    }
 								}