我们普通人如何寻找自己的挣钱项目

项目 · 2024-12-16

我们普通人如何寻找自己的挣钱项目

三节厢2020年12月05日20:25

写在最前面

首先，非常感谢亦仁大佬和作者君言！！！

早些时候，亦仁大佬提到「像素级模仿」。是像素级模仿君言文章（传送门）中的项目挖掘方法。

虽然，作者在原文中给出了非常详尽的思路和步骤，但在实操中，我仍然遇到了，诸如：选择多少词根去拓展、新的拓词渠道有哪些、xmind脑图文件太大无法打开等问题。经过大量的测试，也算找到了较为合适的解决方案。

因此，这篇文章的主要目的是：

一是，复盘和记录自己思考与实操的全过程；二是，看过原帖的，如果实操已踩坑，希望本文提供的优化方案能够帮到你；三是，没看过原帖的，也希望本文能够对你有所启发，然后立刻实操去寻找自己的挣钱项目。

接着，说下自己的实操成果：

3周的不断尝试和探索，帮助朋友副业找到了新的业务增长点，预估月收入到2.6W（增长1.5倍），也优化出了更加适合我们普通人的项目挖掘实操方案。

其实，在给朋友词的时候，我都没有预期会有这么好的反馈。在开始做之前，我也想了很多，这也不行，那也不行，现在想想都是自己劝退自己。想都是问题，做才是答案，上天会奖励那些执行力的。

（和朋友的聊天）

我寻找项目的重点在于挖掘海量用户的需求，再去做自动化归类，数据量越大，归类越智能，找到的需求就越清晰。分为两个方向挖掘：广泛和垂直。-By君言
分享，虽不提项目，但优化后的项目挖掘实操方案却可以和大家一起探讨交流。因此，本文以「贷款」二字作为挖掘对象（我司所处金融行业），试图寻找我司新的业务增长点。

以下是本文的主要目录大纲：

（目录大纲脑图-Xmind2020全文较长，1.2万余字，不用担心，通俗易懂，预计耗时15分钟，文章较干，请备好矿泉水。

选择基础词根，拓展组合词库

所谓，“万丈高楼平地起”，没有海量的数据积累，那么寻找项目也就无从谈起。因此，我们首先需要解决“如何积累海量数据的问题？”。其主要分为3个步骤（先看这3个步骤，每个步骤下文都会解释）：

步骤1：选择「贷款」二字作为基础词根，去一个“渠道”进行拓展，然后导出含有「贷款」二字的长尾词，命名为「贷款-基础词根-长尾词词库」。（ps：一般一个“渠道”会收录多个“搜索引擎”的长尾词）

步骤2：对步骤1导出的「贷款-基础词根-长尾词词库」执行分词操作，生成一个「贷款-词根词频库」。

步骤3：将基础词根「贷款」二字和「贷款-词根词频库」中的前TOPN词根进行组合，然后去不同“渠道”组合拓展，最终形成多个「贷款-组合词-长尾词词库」。

接下来，文章将按照步骤1--->步骤2--->步骤3这个流程详细拆解和实操。

[步骤1]选择基础词根

选择「贷款」二字作为基础词根，去一个“渠道”进行拓展，然后导出含有「贷款」二字的长尾词，命名为「贷款-基础词根-长尾词词库」。（ps：一般一个“渠道”会收录多个“搜索引擎”的长尾词）

分析步骤1的这句话，涉及4个核心词汇，即：基础词根、“渠道”、“搜索引擎”、长尾词。下面对这4个词汇进行一一解释。

基础词根
比如：我在金融行业，我将「贷款」作为基础词根；如果是教育行业，可以将「教育」作为基础词根；而如果想研究快手，可以将「快手」作为基础词根。

有同学可能会有疑问：明明你在金融行业，为什么基础词根选的不是「金融」而是「贷款」？

因为金融这个词太宽泛、不精准，而我司主体业务与贷款有关，所以我选择「贷款」二字作为基础词根会更精准一些。当然这个基础词根还可以进一步精准细化，比如：我司主要从事的是房产抵押贷款，我可以选择「房产抵押贷款」为基础词根，也可以选择「抵押贷款」，还可以选择「房抵贷」。

因此，可以看到：基础词根的选择虽然并没有统一的标准，可以2个字、3个字或更多字，但基础词根的选择要尽量能够描述你所要研究的对象。

在选择基础词根方面，我的建议是：尽量接触特别熟悉相关业务的人，和他们多聊天交流，这样能获得更多自己将要挖掘方向的精准基础词根，依据这些基础词根挖掘拓展的结果或需求，会更加清晰且贴近实际业务场景。

上面例子中的「贷款」、「教育」和「快手」这些更为具体的词汇，一眼就知道其表达的意思，可以统称为「垂直」方向的词汇。而诸如「如何」、「怎么样」、「怎样做」等表达比较模糊的词汇可以统称为「广泛」的词汇。因此，本文属于「垂直」方向上的项目挖掘。

“渠道”

这里的“渠道”是指：我们从哪些地方收集这些包含基础词根的长尾词。

一般情况下，这种“渠道”就是1个软件或网站，我们只要输入基础词根，然后直接导出数据就行了。当然了，这种软件或网站基本都需要付费才能使用。

本文主要使用了5118网站、艾奇关键词拓展工具（软件）、熊猫关键词工具（软件）作为“渠道”。

同时，还需要注意下：一般情况下，一个“渠道”会收录多个“搜索引擎”的长尾词。比如熊猫关键词工具，可以导出百度、360等多个“搜索引擎”的长尾词数据。

当然了，也有一个“渠道”仅专一收录1个“搜索引擎”的长尾词，比如艾奇关键词拓展工具，导出的都是百度的长尾词数据。该渠道收录的数据，都是在百度搜索权重比较高的词。

由于艾奇这个“渠道”拿到的和百度关键词规划师的数据一模一样，而且它拓展的效率更高，因此被人推荐使用。

“搜索引擎”

我们可以看到，这里的“搜索引擎”加了引号，是因为这里的搜索引擎并不仅仅指我们所熟知的百度、谷歌、360等这种纯血统的搜索引擎，而可以更宽泛的理解为：只要某个平台具有「搜索框」，其就可以算作搜索引擎，比如：淘宝、支付宝、知乎等都可以算作搜索引擎，区别就是各平台承载的内容广度和深度不一样而已。

当然了，如果我们想要导出某“搜索引擎”的长尾词，我们只需要找到导出工具就行，比如：淘宝的生意参谋、拼多多的多多参谋、知乎的插件等。

长尾词

长尾词我们可以理解为：

当我们想知道某问题的答案，一般会在“搜索引擎”上输入描述这个问题的词语或句子，最终平台会根据平台算法将相关内容呈现出来。
这里的“描述这个问题的词语或是句子”就是长尾词。

举个例子：比如，我们想知道「Excel中能够查找匹配数据的函数」，由于我们每个人对这个问题的认知程度不一样，可能导致我们描述这个问题的句子存在明显差异。

有些人对这个问题比较了解，输入诸如“Vlookup用法”这样能够得到精准答案的长尾词；而有些人可能根本就不了解这个问题，输入类似“Excel中能够查找匹配数据的函数”这样较为模糊的长尾词。

（精准长尾词搜索结果）

（模糊长尾词搜索结果）

可以看到，精准度不一样的长尾词呈现的搜索结果也不一样。因此，在选择长尾词时，要尽量做到精准，而如何做到精准，和上文选择基础词根选择时给的建议一样：要多和了解业务的人员聊天，千万一定、一定、一定不要自己在那里空想。

好了，我们知道步骤1就是：拿基础词根「贷款」去一个“渠道”（选择5118）进行拓展，然后导出数据即可。那么，我们接下来开始这一步骤的实操：

百度搜索「5118」，进入5118官网，找到首页的「关键词挖掘」并点击进入，在搜索框输入「贷款」基础词根。

我们可以看到包含基础词根「贷款」相关的长尾词有1200w_+，点击右上角的「导出数据」（付费年会员能导出50w，未付费只能导出100）。导出后，我们会得到一张该网站收录的包含基础词根「贷款」的长尾词Excel表格，如下图：

（导出的长尾词Excel表格）

至此，我们就完成了步骤1，得到了「贷款-基础词根-长尾词词库」。

看到这里有同学可能有疑问：有1200w+的基础长尾词呢？怎么就仅仅下载了50w，这样的分析能够代表全部吗？

答：我们可能只能下载几十万，不一定具有代表性，全部下载及分析既不现实也无意义，所以我们只需要提取有代表性的词即可。-By君言

小Tips：步骤1我们仅在5118这一个渠道就可以了。

[ 步骤2] 执行分词操作

对步骤1导出的「贷款-基础词根-长尾词词库」执行分词操作，生成一个「贷款-词根词频库」。

同样，也对步骤2这句话进行分析，其涉及1个关键词，即：分词操作。

分词操作

所谓的分词操作就是：将1个完整的长尾词拆分为N个词根。比如：“贷款买了个男朋友”分词后，形成3个词根“贷款”、“买了个”、“男朋友”。

（长尾词分词操作示例）

大家可能会产以下疑问：

疑问1：我们为什么要执行分词操作？

答：在利用“搜索引擎”寻找某个问题时，它的算法就会对你的长尾词执行类似的分词操作；然后，给每个词根一个编号，每个词根都有对照的内容；最后，根据一定规则推送内容给你。

我们仅简单论述其核心思路，然后借鉴这个思路，实现我们的挖掘。因为真正的“搜索引擎”算法会涉及到更多、更复杂的处理。对我们来说，我们能够理解并简单使用就行，不需要深入探究。当然了，如果喜欢深究那就另当别论。

疑问2：怎么执行分词操作？

答：由于需要分词处理的数据总量过大，因此该操作只能由计算机完成。而当前的普遍做法是：调用python第三方模块jieba，几行python循环代码就可以完成。关于jieba模块的具体内容，大家可以百度快速学习下就行。

好了，了解到步骤2就是对步骤1的数据执行分词操作后，我利用pyhon分词脚本，生成了「贷款-词根词频库」。同时，为了方便步骤3去不同的“渠道”组合拓展词汇，我对分出来的每个词根累积计数，即：词频。然后，按照词频由大到小、倒序排列，生成一个「贷款-词根词频库」的txt文件，如下图：

（倒序的「贷款-词根词频库」txt文件）

[ 步骤3] 组合拓展词库

将基础词根「贷款」二字和「贷款-词根词频库」中的前TOPN词根进行组合，然后去不同“渠道”组合拓展，最终形成多个「贷款-组合词-长尾词词库」。

还是一样，分析步骤3这句话，其涉及3个关键词，即：前TOPN、组合、不同“渠道”组合拓展。

前TOPN

字面表达的就是前几名的意思，在这里理解为：取得「贷款-词根词频库」中较为靠前的N个词根。

这个关键字很好理解，用这里的例子就是：将基础词根「贷款」二字和「贷款-词根词频库」中前几个词根组合起来。
不同“渠道”组合拓展

“渠道”在上文已经说了，其表示某个网站或软件，而不同“渠道”拓展就是为了增大自己的数据量，就去多个“渠道”导出所需数据。在这里理解为：同样一组组合词，我去5118、艾奇和熊猫上分别拓展。

将上述的解释连起来就是：我将基础词根「贷款」二字和「贷款-词根词频库」较为靠前的N个词根组合在一起，然后分别去5118、艾奇和熊猫3个“渠道”导出数据，从而形成多个「贷款-组合词-长尾词词库」。

细心的同学，可能发现步骤3还会涉及一个问题：由于每个人具体实操的差异，会形成文件大小不一样的「XX-组合词-长尾词词库」，那么“较为靠前的N个词根”标准如何衡量呢？

答：关键词往往符合2/8定律，把能覆盖80%词量的geq!0%词根都拿去拓展，基本就能收集到有代表性的词库。-By君言

上面的这句话，建议反复读几遍，我至少读了不下5遍。

这步我的具体做法是：首先，将所有词频数累计求和；接着，取这个总和的|80%；然后，找到总和|80%界限之前的所有词根；最后，拿着界限之前的所有词根，和基础词根「贷款」二字去各“渠道”组合拓词。

（二八定律拓词原理，表中为虚拟数据）

确定了操作思路后，按照上面的二八拓词原理，结合步骤2的「贷款-词根词频库」去逐个组合拓展就行了。

（倒序的「贷款-词根词频库」txt文件）

比如：第1个「公积金」。拿着基础词根「贷款」+第1个词根「公积金」去5118组合拓展，然后导出对应数据：

5118组合拓展）

去艾奇拓词工具拓展，然后导出对应数据：

去熊猫拓词工具，然后导出对应数据：

到这里，第1个组合词就完成了所有渠道的拓展工作，其他组合词也按照上面流程操作就行。
我们就会积累很多个不同的文件。最后，把这些文件统一放到一个文件夹里，将文件夹命名为「贷款-组合词-长尾词词库」。

至此，「01选择基础词根，拓展组合词库」全部完毕，我们完成了海量数据的积累。

02清洗词库数据，词根提取归类

虽然，经过01章节的3个步骤，我们积累了海量数据，即：「贷款-组合词-长尾词词库」。但是，这些文件也存在一些问题，比如：文件格式不统一（有txt文件，也有Excel文件）、无分析意义的短长尾词（2-3个字）、一些无意义的字符（长尾词前含有字符“word:”）等。

为了保证后面的关键词提取更加精准，因此有必要对这些数据进行简单清洗。其主要分为以下3个步骤：

步骤4：将「贷款-组合词-长尾词词库」中的所有文件格式统一转化为txt，然后再将这些txt文件合并为1个txt文件。

步骤5：对步骤4合并后的txt文件执行去短、去无效词操作，形成「贷款-组合词-清洗后词库」。

步骤6：对步骤5的「贷款-组合词-清洗后词库」进行词库归类。

[ 步骤4] 文件转化合并

将「贷款-组合词-长尾词词库」中的所有文件格式统一转化为txt，然后再将这些txt文件合并为1个txt文件。

步骤4主要说明了2个动作，一个是格式转化（统一为txt文件），另一个是文件合并（将多个txt文件合并为1个）。

这里有个问题需要解释一下，即：为什么文件格式要统一为txt？

答：Excel的xlsx格式的文件最大行数为100W+（1,048,576）行，而「贷款-组合词-长尾词词库」中的所有文件的长尾词累积总数远超Excel上限；同时，稍微大一点儿Excel文件，运算速度非常慢。

由于数据量比较大，所以我们仍然采用python脚本处理，这里有2个点需要注意：

第一、python操作Excel建议调用xlwings模块，该模块兼具Excel读、写功能。

第二、在读写txt文件时，将文件编码统一为utf-8形式。

[ 步骤5] 去短无效清洗对步骤4合并后的txt文件执行去短、去无效词操作，形成「贷款-组合词-清洗后词库」。

作者在原文中提及了“去重、去长、去短、去无效词、去非目标词”5种清洗方式，由于其他几个操作对结果基本影响不大，所以我选择了“去短”和“去无效词”清洗。

对步骤4合并后的txt文件进行“去短”操作时，我将leq6个中文字的长尾词全部过滤掉。主要是因为我发现6个字以下的长尾词表达的需求没有研究意义，比如：“贷款不征信”、“贷款上征信”、“贷款软件”等。同时，在熊猫关键词工具导出的长尾词总是存在“word:”的无效字符，也需要过滤掉，如下图：

（原txt长尾词文件中存在大量的上述无效词）

由于数据量比较大，我利用python脚本遍历整个txt文件，然后将过滤后的长尾词重新写入txt文件，最终在执行完前面步骤1-步骤5所有动作后，我得到了1份较为干净、等待提取归类的「贷款-组合词-清洗后词库」。

（「贷款-组合词-清洗后词库」300W+

[ 步骤6] 词根提取归类

对步骤5的「贷款-组合词-清洗后词库」进行词根提取归类。
步骤6主要说明了1个动作，即：词根提取归类（亦称“关键词根提取法”），而要实现这个动作需要下面3小步：

（1）提取前TOPN词根，作为脑图上一级节点；

（2）将包含上一级节点的长尾词集中起来，按照（1）的思路继续提取前TOPN词根，作为脑图下一级节点；

（3）在最后一级节点直接输出长尾词。

举个简化版的例子，以加深理解：

（1）提取前TOPN词根，作为脑图上一级节点。

首先，对「贷款-组合词-清洗后词库」执行分词操作，然后统计各词根的词频。经过统计，前4个高频词根分别是：“公积金”、“利率”、“银行贷款”、“抵押”，把它们作为脑图的一级节点：

（一级节点-xmind2020

（2）将包含上一级节点的长尾词集中起来，按照（1）的思路继续提取前TOPN词根，作为脑图下一级节点。

以上一级节点中的“公积金”词根为例，将「贷款-组合词-清洗后词库」所有包含“公积金”的长尾词单独提取出来作为子库，然后对该子库执行分词和词频统计，比如前3个高频词根分别是：“申请”、“计算”、“手续”，把它们作为脑图的二级节点：

（二级节点-xmind2020

（3）在最后一级节点直接输出长尾词。

因为这里仅展示3级，所以在三级节点直接输出对应的长尾词，那么最终输出的长尾词一定包含基础词根、一级节点和二级节点，如下图：

（二级节点下的长尾词-xmind2020

而最终归类好的、完整的脑图文件，如下图：

（完整的三级归类分词脑图-xmind2020

至此，整个项目的词库归类就完成了。通过以上3个步骤，可以发现：海量的、无序的长尾词数据，经过“关键词词根提取法”自动按照脑图形式结构化呈现，让原来模糊的需求更加明确。

03持续优化细节，结构更加明晰

为了更加便利的使用上述归类后的词库，仍需要作出2方面的优化：

一方面，由于数据量较大，为了便于我们快速了解各词根在同级别中的权重，我们可以同步将权重显示在脑图中，如下图：

（各词根比重-xmind8

通过图中数据，我们不仅能够看到这个词频属于哪个版块，还能够大致了解其在整个领域的比重。（ps：这里未做百分数处理，同时为了防止后期数据量过大，导致2位小数不够用，做了保留4位小数点的处理。）
另一方面，为了能够很好的区分每一个词根，将一级节点的高频词根单独作为一个脑图写入不同的画布，比如：

（每个一级节点词根作为单独的脑图画布-xmind8

通过这种每个一级节点作为单独脑图画布的处理，使得我们将每一个词根作为一个单独的板块对待，能对某个板块进行更加清晰的定位。比如：「1.02-银行贷款-1056」我们就明确知道该板块的编号为1.02，主要描述与银行贷款需求有关的长尾词，有1056条长尾词之多。

04实操遇坑死磕，终能解决问题

终于，经过一段时间的努力，我顺利的跑通了整个项目的流程。当我看着自己桌面上生成的xmind脑图文件，幻想着自己马上就能够找到月营收**W的小项目。

我挪动着颤抖的老手，轻轻地双击鼠标左键，接受指令的鼠标在桌面上画着圈圈，而那个圈圈承载着我月度**W的营收梦。

毫不意外的，梦碎了：

（文件无法打开警告窗-xmind2020

是的，正如上图所看见的一样，这就是我面临的，我想也是我们大多数普通人实操后、所面临的问题：利用xmind模块输出的脑图文件，无法打开查看？

[ 尝试1] 发邮件直接咨询

既然，弹窗写着“发送错误信息给xmind团队”，那么杵在这里等肯定是不会有结果的，我立刻就将自己的情况简述后发了一份邮件过去，而xmind团队也立刻回复了，只不过，有点伤心，一份机器应答的礼节性的回复：

（xmind团队机器应答回复邮件）

直至现在，我每天仍然会查看邮件，看xmind团队是否会有新的回复。

[ 尝试2] 上网搜免费答案

在尝试多个描述这个问题的长尾词后，终于网上有踩过坑的大神提示：利用python的xmind模块生成的脑图，xmind2020无法打开，建议使用xmind8打开。

和大多数人一样，我安装的也是xmind2020，主要原因是它爆表的颜值（ps：xmind软件中国人开发的，主要市场在海外，口碑极好，公司CEO是个研究佛学的安徽老铁）。于是，赶紧打开xmind官网，下载了xmind8，果然之前生成的脑图文件能够打开了。

xmind8下载入口放心、免费使用）

有些时候，你以为自己找到了解决问题的钥匙，而现实告诉你：并没有，其实真正的探索才刚刚开始。

[ 尝试3] 问题进一步聚焦

由于之前仅测试了部分数据（1W+长尾词），所以生成的xmind文件也比较小，仅有200k左右，Xmind8能够顺利的打开。

可是，当我将数据范围进一步扩大时（5W+长尾词），生成的脑图文件超过了1M。当我再次打开这个文件时，那个圈圈又出来了，转啊转啊，半个小时后电脑直接变成了无响应。多次尝试打开，都是同样的结果，如下图：

（脑图文件过大时，xmind8无法打开）

我以为是家里的笔记本性能不太好，将生成的脑图拿到公司，可以打开那个1M的脑图文件。可是，当我将数据再一次步扩大时（20W+长尾词），生成的脑图有4.1M的时候，公司的电脑也无法打开了。

到这里，之前的“xmind文件无法打开”的问题，就演变为“xmind大文件无法打开”这个需求更加明确的问题。

于是，本着“不要自己重复造轮子”的思路，我再一次去网上寻找是否存在能够直接查看或是进行处理的工具。也看到了利用xxmind或xmind2testcase这种对数据解析后写入Excel的工具，尝试了下不能够解决上述问题。

[ 尝试4] 找付费解决方案

免费的没有，那么付费的是否存在呢？于是我在生财搜了下，还真有解决这个问题的帖子，原作者将代码放在了gitee上，而且操作步骤写的很详细。由于自己之前没有接触过相关阿里云的配置，所以看完后心里就已经放弃了这个实现方案。然后我加了作者，发了个小红包，表达自己的感谢和

[ 尝试5] 大拆小梳理思路

经过上面的几次探索，因为都没有找到合适的解决方案。《如何用数据解决实际问题》中开篇第二段就提到：解决问题的流程从明确⽬的或问题开始。

于是，我又回到了“xmind大文件无法打开”这个原始问题的定义上。如果这个问题从一开始就定义错了，那么接下来提出的解决方案也必然是错的。因此，我首先要做的是再一次梳理整个项目流程，确定核心解决的问题；其次，根据提出的问题寻找适合的解决方案。

确定了思路方向和具体的工作步骤之后，我开始按部就班的执行。

首先，我将步骤6的流程反复操作几遍，找不同的人、用不同的电脑去打开不同数据下生成的、不同大小的xmind文件，结果是“xmind大文件无法打开”这一原始问题的定义没有错误。

最终，我又一次回到了如何解决这个问题的落地实践上来。既然这个问题之前没有找到合适的解决方案，看来我需要进一步解构“xmind大文件无法打开”这个问题。

反复阅读这个问题的描述，我发现其他的词汇都很明确，只有“大文件”这个关键词是一个定义相对模糊的词。什么是“大”？是不同的事物之间出现了对比，才出现了这种差距的描述词，那么这种差距的描述词必然是成对的出现，有大必然就有小。那么，顺着这个思路进行解构的方向就是：将上述的「大文件」拆解为N个「小文件」。思路上有了新的解决方向，可是从“哪里拆解以及如何拆解”又成为了一个新的要解决的问题。

在前面细节优化中有这样一个操作细节——“为了能够很好的区分每一个词根，将一级节点的高频词根单独作为一个脑图写入不同的画布”。既然这样，那么我们是否可以做这样的调整，即：原来是一个xmind文件包含多个画布，而每个画布对应每个一级节点拆分为现在是每个一级节点都单独成为一个xmind文件，而每个xmind文件仅有一个画布，如下图：

（将每个一级节点生成单独的xmind文件）

按照这个思路，我对之前的python脚本做了简单的调整，然后用部分数据跑一下，做个测试，如下图：

（测试后一级节点生成的单独xmind文件）

仅从表面上看到这个结果，好像这个“大拆小”的思路，能够解决之前的问题。但是，当测试的数据量开始增加时，每个单独的xmind文件也不断扩大。因此，大概率可以预见的是，当测试的数据量达到一定大的程度时，每个单独的xmind文件也会大到无法打开。

如果是这样的话，那么整个问题又回到了之前的原点，也就是说“大拆小”的思路其有一定的适用范围，即：在一定的数据范围之内“大拆小”可以解决，但当数据量达到一定程度时，该方法仍然无法解决“大文件”无法打开这个问题。

同时，大家可以看到，在描述“大拆小”的适用范围时，我采用了“一定范围”、“一定程度”等这样的程度模糊词汇，也就是说这里还存在进一步挖掘的空间，可问题是：进一步挖掘的空间在哪里呢？
我又一次停在了“无法打开”这里，如果仅从实操过程上看，我好像经历了从“无法打开”到“大拆小”，然后又回到了“无法打开”的原点。

但是，对我自己而言，这次回到的“无法打开”，并不是原来的那个“无法打开”，其本质上反映了自己对这个事情认知的又一次提升。我想这大概有点类似刘润老师在《专访小米雷军》一文中写到的“不是原路返回”！（新零售，就是更高效率的零售。我们要从线上回到线下，但不是原路返回，而是要用互联网的工具和方法，提升传统零售的效率，实现融合。---By刘润《专访小米雷军》）

[ 尝试6] 勤思考爆发威力

带着“下一步的挖掘空间在哪里？”这个问题，我打开了其中一个利用“大拆小”生成的脑图文件，在检查数据是否有错误的同时，也在看有没有比较有意思的词根，由于生成的脑图文件比较多，所以我点击了「全部收缩」xmind就自动保留了所有一级节点，当我想看看到具体感兴趣的词根时，在去看看它下面的其他内容，如下图：

（贷款-二套房-政策-四级长尾词）

查看了几个之后，我发现由于文件比较大或是笔记本性能的原因，打开和收缩节点比较卡，那么，我可不可以既能看到脑图结构，也能看到具体内容，而且打开和收缩各级节点还不卡？

沿着这个思路，我将上面的需求提炼了一下：“看结构”、“看内容”、“还不卡”，而这个三个需求都是基于xmind脑图文件可以打开的前提，而文件打开的前提就是文件要小，而文件变小的核心是“大拆小”思路。可是如何能够同时兼顾“看结构”、“看内容”、“还不卡”这个3个需求呢？

通过翻看脑图文件，我发现：各级节点占整个脑图的比例较小，真正占脑图大比例的内容是最后一级节点输出的长尾词，它们小的有几十个，多的有上百个，如果数据量足够大可能会有成千上万个，这样下来整个文件能不大么？

然后，我就想到了一个方案，仍然采用“大拆小”思路，即：如果我把最后一级节点输出的长尾词单独拆分出来，形成一个个长尾词文件，最后一级的长尾词就不在xmind里显示了，自然而然xmind文件就变小了，那么打开的问题也就解决了。当我看到想要了解的某个脑图时，打开对应的长尾词文件就可以了，而要是这样的话，上文的“看结构”+“看内容+“还不卡”的3个需求也都顺便满足了。

（最后一级长尾词单独拆分为文件）

按照这个思路，我在之前的python脚本增加了输出txt长尾词的2行代码。之所以生成txt文件，因为它的启动速度快而且没有Excel数据行数的限制。

最终，在这种“大拆小”思路下形成了「xmind脑图」+「txt长尾词文件」这样的组合体，在解决了“xmind文件无法”这一问题的基础之上，又满足了“看结构”+“看内容”“还不卡”的深层需求。

以30W+长尾词作为测试数据，对比包含最后一级长尾词和不含最后一级长尾词所生成的脑图文件大小，一个15M，另一个300K，说明了“大拆下”思路下方案的可行性。

（拆分前后的脑图文件对比-Xmind2018）

其实，这个解决方案也存在一定的瑕疵，就是生成的txt文件太多，其可能导致的后续问题是：当我们在脑图中看到自己感兴趣的词根，想要了解最后一级节点的长尾词时，由于txt文件过多，无法在第一时间找到那个文件。

因此，为了更方面的找到相关文件、控制脑图节点数量和txt文件数量，在上述基础之上，我又做了3点的优化：

（1）txt文件命名的命名采用：时间+编号+各级节点词根前后相连。

（命名优化）

（2）将各一级节点形成的脑图和txt文件放在同一文件夹。

（归类整理）

（3）自定义控制TOPN词根阈（念yu）值输出。

（自定义阈值）

最终，我按照上述探索的思路，采用0.8作为控制每级节点TOPN的词根阈值，花了1天多的时间将300W+数据跑了一下，而后生成了非常多的一级节点作为单独的文件夹目录。

到这里，我们完成了所有的前期工作，接下来只需要我们逐个查看验证需求就行了。

（最终数据文件归类）

耐心查看归类，寻找商业价值

俗话说，“种下梧桐树，凤凰自会来”。

既然，我们已经有了若干份独立需求集合（种下了一大片的梧桐树），那么接下来就是花时间耐心的去看。

然后，我打开脑图文件，慢慢查看，发现了其中一个节点，然后找到它的对应长尾词txt文件，如下图：
可以看到：“贷款”、“诈骗”、“法律”这3个词根出现次数最多。而在文章开篇之前就确定了“试图寻找我司新的业务增长点”的明确目标，也就自然会引出2个问题：这些和我司当前的业务有何联系？对我司的业务是否有促进作用？

而要回答“和我司业务，有何联系？如何促进？”问题，就必须先回答以下3个问题：

[问题1]“贷款诈骗”类长尾词是否具有商业价值？

[问题2] 我司和“贷款诈骗”类长尾词联系点是什么？

[问题3] 在前述都存在的情况下，我司应该如何应对？

[ 问题1]“贷款诈骗”类长尾词是否具有商业价值？要回答标题的疑问，就必须浏览完所有长尾词txt文件。在完成必要的文件浏览工作后，我发现：txt文件中的所有长尾词都隐含着强烈的“法律”诉求。

我们去百度看看，以“贷款诈骗”为例，如下图：

（“贷款诈骗”关键词下的广告投放：电脑）

（“贷款诈骗”关键词下的广告投放：手机）

通过上图，可以看到：用长尾词“贷款诈骗”在百度搜索，前几个广告位都占满了，虽然不能具体了解这个词的竞价，但有人投放的事实在一定程度上说明了该类型的词根有一定的商业价值。

[ 问题2] 我司和“贷款诈骗”类长尾词联系点是什么？

既然，该类词根有一定的商业价值，那么我们就执行下一步动作。而在找联系点之前，先来看下我司当前的主体业务：房产抵押贷款业务（简称“房抵贷”），即：客户通过房产抵押获得相应资金，满足自身资金需求，而我司通过提供这种金融服务实现商业价值。从这句话中，可以拆分出3条主线，即：资金筹集mathopenmathclosebgroupmathopenmathclosebgroupmathopenmathclosebgroupmathopenmathclosebgroupmathopenmathclosebgroupmathopenmathclosebgroupmathopenmathclosebgroupleft.+aftergroupegroupaftergroupegroupaftergroupegroupaftergroupegroupaftergroupegroupaftergroupegroupaftergroupegroupaftergroupegroupaftergroupegroupright.资金投放+资金回收。

而3条主线的具体业务内容，也正如它的字面意思一样：从不同的渠道筹得资金，然后将这些资金投放到市场，符合指定条件的客户将房产抵押，获得相应资金；在借款到期，客户按照合同约定还完本金和利息，房产解压，资金完成回收。

想要进一步理解的话，可以将这个业务类为比银行按揭贷款买房：买房时，手里钱不够，把房子抵押给银行，银行给你贷款，你买到房子，按月还款就行了。这个过程就是房子抵押贷款的过程。

理想情况下，客户按照正常时间还本付息，房子到期解押，整个业务流程走完，是一个多方共赢的局面：客户的资金需求得以满足，其他各方因提供金融（服务）而实现了商业价值。

但是，我们都知道：任何事情，总会出现和我们当初设想相反的样子。而这种相反的样子在房抵贷的表现就是：客户未能够按照合同约定的期限正常还本付息，然后资金方就会采用合法手段或途径控制违约风险，以保护自己合法权益。其中，法律途径就是保护手段之一。

而法律途径的极限处理是卖房子还钱，即：客户抵押的房子被司法拍卖，用司法拍卖房子后获得的钱款偿还本息。

[ 问题3] 在前述都存在的情况下，我司应该如何应对？

分析一个问题，我们不仅要基于数据层面，还要基于其他因素的综合考虑；既有宏观上的战略分析，也有微观上的战术分析；当然了，还要因时、因事而异的具体问题具体分析。

当前情况下，在整体经济疲软、银行“下探”（银行低下身段尝试接纳以前不曾接触的客户群）及新冠疫情的多重因素影响下，加之15.4新规的落地（法律保护的最高民间借贷利率界限），使得整个房抵贷行业直接进入“血海式”的残量竞争。在这种形势下，各机构一方面对外纷纷祭出奇招营销市场，另一方面对内建立以“利润”结果为导向的考核机制，希望实现当年目标。

一般情况下，较大的房抵贷业务机构，都有自己的法务部门，而该部门主要有以下几个特点：

1.其主要服务对象是公司内部；

2.其主要作用是房产处置；

3.其主要收益来是处置房产后的价款提成；

因此，基于上述的综合分析推断，建议我司：职能部门公司化，更具象的表现就是法务部门公司化。

那么，何谓“职能部门公司化”？

其实，我们从字面就能够很好的理解：当公司的某些职能部门达到一定的程度或是规模时，公司就投资该职能部门的负责人，让该负责人独立运营这个部门业务。这样这些部门就可以以原公司为核心服务对象，然后再承接外部市场相同业务，这样就保证了资源的合理充分利用，提升了经营效率。

而职能部门市场化运作做的最好的就是海底捞，海底捞的供应链是蜀海，成了餐饮行业的龙头供应链公司。海底捞原来的人力资源部门，现在也成了单独运营的公司，对外承接培训、招聘等业务。（部分内容参考于公众号小马宋）

虽然上文定义“要达到一定的程度或规模”就可以进行职能部门市场化，但没有具体的衡量方法。在日常工作中，我们衡量某方案是否值得投入的一个标准就是：投入产出如何？

通过上文的综合分析发现，我司实施法务部门公司化运作的利好因素有以下几点：

第一、大量长尾数据表明这样的法律需求真实存在；第二、法务部门市场化符合以“利润”为导向的考核机制；第三、内部法务资源的外部市场化运作，能够最大限度地利用企业现有资源，提升运营效率；第四、法务部门市场化没有额外增加运营成本，却使得原有营收成倍放大成为了可能。

接着，我们再来看一组测算数据：以一家中等的民营房抵贷机构年度放款总额|20langleZ.、司法处置率为1%–3%为例，年司法处置金额在0.20.6langleZ_circ。

如果我们将这个数据放大至整个房抵贷行业呢？

好了，以上就是整个项目的完整流程，如果你有所启发，赶快行动找寻自己的项目吧！

知识星球

#无标签