GPT4o的词汇表里被挖出很多不可描述的单词

虽然中文互联网被污染了是一个既成事实,但是没想到会以这种方式呈现出来。

刚刚在X上看到有人挖掘GPT4o的词汇表,然后发现里面有很多不可描述的词汇。原理是GPT4o对多语言进行了针对训练,应该是增加了使用的互联网数据。然后在训练分词器的时候会把出现频繁的词合并成一个词汇。比如说之前中文数据少的时候每个词都是被分割成一个一个汉字了,所以日本电影被分割成日/本/电/影四个字。但是现在因为此类表达出现的频率过大,大到模型认为值得专门在词汇表里增加一个词汇。所以造成这种现象的原因是中文网络现在基本上被分割成一片一片的app的自留地。而互联网上则只剩下内容农场、垃圾站,以及为黄赌毒引流的网站了。 从某种意义上来说这也是国产LLM的崛起机会?因为国产app里面有大量openai接触不到的训练数据。

– 推特的简中内容完全没法看,搜索已经完全废掉了,任何关键词搜出来都是黄片。

GPT4o的词汇表里被挖出很多不可描述的单词 GPT4o的词汇表里被挖出很多不可描述的单词

声明:本站为个人网站,转载文章仅出于个人兴趣收集素材。如若本站内容侵犯了您的合法权益,请和我联系
语言

请停止翻译我们的文化

2024-12-13 18:27:40

语言

汉语的现代敏感

2024-12-15 12:43:20

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧