TensorFlow 支持 Unicode 编码
原标题:TensorFlow 支持 Unicode 编码
文 / Laurence Moroney, Google TensorFlow 团队;Edward Loper, Google Research 团队
TensorFlow 现在可以支持 Unicode,这是一种标准编码系统,可以表示几乎所有语言的字符。处理自然语言时,了解字符的编码方式非常重要。在像英语这样的小字符集的语言中,每个字符都可以使用 ASCII 进行表示。但是这种方法对于其他语言来说并不实用,例如中文,这些语言有数千个字符。即使处理英文文本,Emojis 等特殊字符也不能用 ASCII 表示。
定义字符及其编码的最常用标准是 Unicode,它几乎支持所有语言。对于 Unicode,每个字符使用唯一的整数 code point 表示,其值介于 0 和 0x10FFFF 之间。当按顺序放置 code point 时,将形成 Unicode 字符串。
Unicode tutorial colab 展示了如何在 TensorFlow 中表示 Unicode 字符串。使用 TensorFlow 时,有两种标准方式来表示 Unicode 字符串:
- 作为整数向量,其中每个位置包含单个 code point
- 作为字符串,使用字符编码将 code point 序列编码到字符串中。有许多字符编码,其中一些最常见的是 UTF-8,UTF-16 等
以下代码分别使用 code point、UTF-8 和 UTF-16 显示字符串 “语言处理” 的编码。
当然,您可能需要在各种表示方式之间进行转换,而 TensorFlow 1.13 已添加了执行此操作的函数:
- tf.strings.unicode_decode: 将字符串标量转换为 code point 的向量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)
- tf.strings.unicode_encode: 将 code point 向量转换为字符串标量(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_decode)
- tf.strings.unicode_transcode: 将字符串标量转换为不同的编码(https://www.tensorflow.org/versions/r1.13/api_docs/python/tf/strings/unicode_transcode)
因此,如果要将上述示例中的 UTF-8 解码为 code point 向量,则可以执行以下操作:
当解码包含多个字符串的 Tensor 时,字符串可能具有不同的长度。 unicode_decode 将结果作为 RaggedTensor 返回,其中内部维度的长度根据每个字符串中的字符数而变化。
要了解有关 TensorFlow 中 Unicode 支持的更多信息,请查看 Unicode tutorial colab并浏览 tf.strings 文档(https://www.tensorflow.org/tutorials/representation/unicode)。
相关文章
-
夸人只会绝绝子,一到吵架就语塞…“语言匮乏”到底是不是一种病?
-
TCL与腾讯START云游戏成立联合实验室,共建大屏云游戏新生态
-
深度资讯|双十一争夺战:主流电商争论“二选一”,短视频抢市场
-
押金换金币、严查贪腐、推广代理新模式……欠款数十亿的ofo还能翻盘吗?
-
华为打脸美国,三星包揽韩国基站,5G时代真的来了
-
百度发力移动生态止亏见成效,或与头条展开关键一役
-
苹果三星握手言和,子弹短信要开发布会,马云开酒吧
-
TikTok要求ShareChat删除视频内容,但这只是冰山一角
-
“战斗天使”小米9的“阿克琉斯之踵”
-
在线调戏所有iPhone用户,这个操作我服!
-
全球百亿美元的市场,却被3家海外巨头瓜分,国产EDA开始突围
-
疫情之下,中国互联网公司截然不同的“正负加速”
-
微软(Microsoft)和亚马逊(Amazon)正竞相吸引游戏开发者使用云技术
-
幸福就很突然,《GTA:圣安地列斯》次世代优化版“双11”加入XGP
-
市县经验|淮北市政策“加码”助力工业互联网发展
-
Facebook假新闻太多,维基百科创始人办了一个新的社交网络
-
企业微信直播设置
-
版权时代来临,“赤手空拳”的直播吧如何继续前行?
-
阿里巴巴将于今日上午9时开始在香港公开发售;亚马逊抗议美国防部将100亿美元云计算合同授予微软|早8点档
-
苹果新闻是媒体巨头的派对还是葬礼?
-
马云回应“裁员传闻”:为社会输送人才
-
湖南吉美:什么是BRAS?
-
华为将开放出售5G芯片;奥迪新车查出是事故车;海外卖松花蛋被查
-
Unity分享:为MR设计,ProjectMARS头显配套应用的研发和设计
-
热点丨搜狗CEO王小川:会考虑分拆部分业务回归国内上市
-
抖音、罗永浩、王欣发布会“撞车”,真是为了围剿微信吗?
-
华为员工年薪200万!真相让人心酸!
-
【钛晨报】美团发布Q3财报,王兴称共享单车为明年投资核心领域;区块链第一股嘉楠科技登陆纳斯达克;美国FF总部25日举行贾跃亭债权人会议
-
【阿里回应印度前雇员起诉:政策符合当地法律案件还在审判中】