词云
词云直观地表示文本数据,突出显示流行的关键字和短语。 每个单词出现的频率由单词的大小反映。
词云编码渠道
词云提供以下编码通道:
编码通道 | 渠道类型 | 说明 |
---|---|---|
Text | category | 要添加到词云的文本值。 Charts 将应用于此渠道的字段中的每个唯一值添加到词云中。 词云最多可以显示 100 个值。 如果应用于此渠道的字段包含超过 100 个唯一值,则图表将显示 100 个值的随机样本。为确保图表仅显示最常用的单词,您应应用限制并按 Value排序。 |
size | 聚合(Aggregation) | 指示要聚合的字段以及要执行的聚合类型。 聚合结果定义了每个Text值的大小,聚合值越大,文本大小越大。 示例,如果您设立Text和Size通道设置为 如果将Text渠道设置为 |
颜色 | category | (可选)为每个文本值着色以指示应用字段中的相应数据值。 示例,如果您设立Text 、 Size和Color通道设置为 如果您将Text和Size渠道设置为 |
用例
使用词云显示文本字段中特定词语或短语的频率。 词云提供了一系列文本数据中常见词语和主题的高级视图。 它们还可以突出显示一组已知字符串中最常用的短语,例如产品类别或标签。
考虑使用词云:
显示产品评论中使用的常用单词和短语。
识别现有内容中的常用术语,以改进搜索引擎优化 ( SEO )。
从汇总的用户调查中突出显示特定的客户痛点。
示例
词云通常用于显示词语在长文本字段中出现的频率。默认,词云不会将文本字段分割为单词,而是尝试将整个文本字段可视化为单个值。您可以使用聚合管道将文本字段分割为单个单词。
注意
本教程中使用的数据集包含在Atlas 提供的sample_airbnb.listingsAndReviews
数据集中。
以下示例根据包含 AirBnB 出租属性信息的数据集创建词云。每个属性列表都包含一个description
字段;描述属性的文本字段。
首先,我们运行聚合管道来预处理description
字段。以下聚合管道:
Splits
将description
字段放入数组中,其中每个单独的单词都是一个数组元素。Unwinds
该数组,为每个description
字段中的每个单词创建一个新文档。Adds a new field
将words
调用到集合中,其中 中的每个展开的单词都会成为description
words
的值。执行
$match
查询,以便仅将重要的单词添加到词云中。
步骤
将以下聚合管道粘贴到图表生成器顶部的Query栏中:
[ { $addFields: { words: { $map: { input: { $split: ['$description', ' '] }, as: 'str', in: { $trim: { input: { $toLower: ['$$str'] }, chars: " ,|(){}-<>.;" } } } } } }, { $unwind: '$words' }, { $match: { words: { $nin: ["", "also", "i", "me", "my", "myself", "we", "us", "our", "ours", "ourselves", "you", "your", "yours", "yourself", "yourselves", "he", "him", "his", "himself", "she", "her", "hers", "herself", "it", "its", "itself", "they", "them", "their", "theirs", "themselves", "what", "which", "who", "whom", "whose", "this", "that", "these", "those", "am", "is", "are", "was", "were", "be", "been", "being", "have", "has", "had", "having", "do", "does", "did", "doing", "will", "would", "should", "can", "could", "ought", "i'm", "you're", "he's", "she's", "it's", "we're", "they're", "i've", "you've", "we've", "they've", "i'd", "you'd", "he'd", "she'd", "we'd", "they'd", "i'll", "you'll", "he'll", "she'll", "we'll", "they'll", "isn't", "aren't", "wasn't", "weren't", "hasn't", "haven't", "hadn't", "doesn't", "don't", "didn't", "won't", "wouldn't", "shan't", "shouldn't", "can't", "cannot", "couldn't", "mustn't", "let's", "that's", "who's", "what's", "here's", "there's", "when's", "where's", "why's", "how's", "a", "an", "the", "and", "but", "if", "or", "because", "as", "until", "while", "of", "at", "by", "for", "with", "about", "against", "between", "into", "through", "during", "before", "after", "above", "below", "to", "from", "up", "upon", "down", "in", "out", "on", "off", "over", "under", "again", "further", "then", "once", "here", "there", "when", "where", "why", "how", "all", "any", "both", "each", "few", "more", "most", "other", "some", "such", "no", "nor", "not", "only", "own", "same", "so", "than", "too", "very", "say", "says", "said", "shall"] } } } ] 单击Apply以执行管道。
现在我们有一个包含每条评论中的各个单词的字段,我们可以在词云中可视化这些单词。
将新创建的
words
字段应用于Text渠道,将每个单词添加到词云中。应用限制为 80 以仅显示评论中最常见的 80 个单词。
将
words
字段应用于Size渠道,并根据每个单词的计数进行聚合。
您的文字云应如下所示:
云中词语的大小代表了它们的相对频率。
限制
词云的最大查询响应大小为 5000 个文档。