经济学分析视域下的大数据竞争-经济观察的专栏

经济学分析视域下的大数据竞争

2020-07-15 13:11:16栏目：默认栏目 IP属地：IP未知

竞争法微网

经济学分析视域下的大数据竞争

方燕

本文载于《竞争政策研究》2020年第2期

【摘要】本文从竞争经济学角度分析了大数据对反垄断经济分析带来的深刻影响。大数据的公共品特性、规模报酬加速递减性和数据个性化等使其未必决定市场进入。数据网络效应和多用途性让涉及数据的反垄断趋于复杂，大数据作为策略性资源使用可能让质量恶化和研发创新受阻，但是作为生产要素和有价商品使用可能繁荣数字服务和数据市场，助长效率实现。数据具体用途不可知决定难以进行数据竞争定性，仍需个案分析。

【关键词】大数据；公共品；数据多用途性；数据竞争；反垄断

一、引言

随着很多活动被数字化以及线下活动的线上连接服务日益普及，虚拟网络空间产生的用户数据呈现爆炸式膨胀，其中很多数据都被互联网通信运营商、互联网服务提供商，以及专门收集处理和销售数据资料的数据运营公司所掌控。数据作为在线平台中的投入要素和有价商品的重要性日益凸显。要从法律视角评判大数据竞争，必须深刻理解在线平台运营商收集、处理和使用数据的经济学特征和方式，以及运营商借助数据开展的竞争经济学性质和方式。本文将详细提炼经济学视角下大数据的特征和能力，关注大数据的反垄断经济学分析，为互联网大数据领域的反垄断法实施提供对策建议。

二、经济学视域下大数据的特质与影响力

（一）大数据的公共品特性

很多用户数据都是非竞争性和非排他性的，或者说具有公共品特性，即用户数据能同时被多个经济主体所用；也难以明确界定特定数据的独家产权所属。比如，在位者和新创者都能收集和使用用户数据，互不影响。这点对于能为所有人免费得到的公开数据尤其如此。当数据能加总后使用时，数据收集通常来自不同渠道和源头，且来自不同源头的数据之间有时容易相互替代。可见，用户数据的收集相对简单，耗费的成本代价相对较少，数据收集本身的进入壁垒就很低。

而且，随着互联网和移动智能终端的普及，网络用户时刻“播撒”自己需求和偏好方面的“蛛丝马迹”，在时刻创造和撒播各种数据信息。由于用户经常多归属，即用户向多个服务商共享自己的数据，没有任何企业能控制所有数据。

各企业有时能从多个渠道轻易收集到足量的、几乎等效的用户数据。格雷夫（Graef）(2015)发现，搜索引擎借助搜索排序记录“交叉复现或验证”揭示出的对特定群体的音乐偏好结果，与社交网络对同一群体在社交平台共享记录揭示出的音乐偏好信息基本相同。亚马逊（Amazon）收集到的购物记录数据，在提升广告精准化方面与谷歌（Google）拥有的数据一样高效。移动智能终端ISP能获得大量用户实时定位记录数据，这些数据的信息量接近于科技巨头谷歌和脸书掌控的信息量。如果能借助不同手段从不同数据来源中提炼出几乎相同信息量的新知识，这些数据认为不仅是可获取的（Accessible），还是可替代的（Substitutable）。只要数据可获取且可替代，主导平台运营商因数据控制而带来的潜在垄断能力，将因此大打折扣。企业能从多个渠道购买到足量的相关数据，数据存储和分析工具也能从大量的第三方来源取得。可以说，大数据的生产和流通是一个几乎零边际成本过程，有关数据及其搜索的转移成本很低。

并购重组是一种轻易获得更多数据的常用手段。北美和欧洲竞争执法机构在涉及数据的并购审查中意识到，通过并购增加对特定类型数据的获取量的尝试，在其他竞争对手仍然能从其他替代性渠道获取足以替代的海量数据的前提下，是不会引发太多竞争关注的。数据的可获取性和可替代性是欧盟竞争委员会和美国联邦贸易委员会在2007年前后无条件批准google收购DoubleClick的一个理由。2012年的西班牙电信英国分公司(Telefonica,UK)/英国沃达丰（Vodafone）/英国EE公司（Everything Everywhere, UK）合资案和2014年的脸书（Facebook）并购瓦次普（WhatsApp）案，也因类似逻辑而得到批准。

从独立第三方和并购等多渠道获得相关数据的事实，意味着无论是大平台企业还是小平台企业，都有机会从有关消费者偏好数据信息中获益，并及时加以调整应对。这里要说明的是，原始数据的收集相对较简单，但是分析和处理数据需要耗费成本和时间资源。同时，开采原始数据这座金矿也是各个企业的商业秘密，需要商业头脑。原始数据的开采加工本身就可算作为数据使用过程的一部分。随着开放科学和开源运动的不断深入人心，已经出现越来越多的开源分析代码和软件，为处于初创期的中小平台运营商开发和利用海量数据提供了一个很好的业务启动助推器。当然，在某些情况下，法律（如知识产权法和数据保护法规）和商业策略（如商业秘密）等也会限制对某些特殊数据的获取和利用。

关于大数据的公共品属性问题，有两点尤其值得关注。

第一点是，数据异质性、数据可获取性(Accessiblity/Availability)不等于可替代性(Substitutability)。或者说，由于异质性原因，可通过多渠道获取的数据包含的信息数量和质量常常是有差异的，格雷夫(Graef,2015)有关从不同渠道获取的等量数据包内含等量信息的论断并非总是成立。显然，拥有更多同类信息量的数据集或数据来源，能对拥有较少信息量的数据集或来源实现完全替代。数据集（或来源）A与数据集（或来源）B共有的重合信息量占数据集B总体信息量的比重，可度量A替代B的能力和强度。评估不同来源数据的可替代性有时很重要。评估工作又与供给侧替代性和进入壁垒有关联。2008年汤姆森（Thomson）公司并购路透社（Reuters）集团案就牵涉许多金融服务市场的特定数据库的重大重叠问题。该并购引起的竞争担忧，不单来自于并购后的新实体拥有很高的市场份额，还来自于重新构建一个类似的数据库所用的时间精力成本很高。

第二点是，依据数据的不同用途，数据集的范围或者说多样性有时与其规模同样重要。某个数据集内含的知识或信息量同时取决于其数据规模量和多样性。具体而言，一个数据集的真实价值不单单依赖于提供这些数据的个体数量，还依赖于每个个体透露的信息数量。数据的多样性对信息量的正面影响可以直观地视为数据的范围经济效应。用户数据的范围经济性具体体现为：一方面，越大量和更多样的数据集常能比更少量和同一性的数据集揭示出更多有价值的信息。另一方面，通过向消费者提供各种服务而收集而来的用户数据，让集服务提供和数据收集于一身的企业，能揭示出有关这些消费者的行为和品味等多方面的信息，让企业能更深刻和全面地了解潜在顾客，进而更准确地推断某个老用户在某个时点可能会购买某个产品的几率。将从不同来源渠道获取的数据相整合有时能揭示出一些新内涵，这一点在谷歌并购双击（DoubleClick）案中已有体现。当时欧盟竞争委员会就指出，基于数据质量的竞争状况不应单单看各竞争主体拥有的数据集规模，还要看竞争者获得数据的不同渠道和类型，以及哪些渠道和类型的数据对于互联网广告业务而言是最有用的。同样地，英国信息委员会办公室(Information Commissioner’s Office, ICO)也指出，根据诸多行业人士的理解，在大数据的5个（或7个）V中，多样性是一个不可或缺的甚至最重要的特征。网络欧盟软件和服务倡议（Networked European Software and Services Initiative, NESSI）也表达了类似的观点。

其实，并非所有数据都有多个渠道来源，也并非所有来自不同渠道的数据都存在一定程度的替代性。只能通过唯一渠道获取唯一的数据的情况下，数据就不能轻易复制，数据是由一对独特的互动行为所引起时尤其如此。比如，脸书平台对注册用户留下的“痕迹”信息挖掘而来的情感数据透析会影响到网民的网络行为，复制这样的情感互动数据是很困难和高成本的。构造这样一个数据收集点和渠道是数据收集者梦寐以求的，这也将提升进入壁垒。

各运营商对用户数据的索取竞赛并非一个零和博弈，而是正和博弈。数据的公共品特性与用户多归属性有着紧密的关系。用户多归属性，允许网民在消费多个平台运营商提供的多个服务时，有意无意地向它们散布了个人数据信息。主导性平台运营商不可能就用户数据拥有显性的或事实上的排他性能力。因为，运营商不能就向用户提供的服务附带有关用户数据的排他性条款，也不能锁定用户使其只能与自己分享个人数据。另一方面，多归属性让互联网领域子行业里的在位者继续壮大时，也能预留出市场空间给新进入者专注于特定内容或子领域。新进入者能借助自己收集或购买到的用户数据，开发出差异化产品，谋求生存之道。比如，在由脸书主导的全球社交网络领域，照片墙（Instagram）、推特（Twitter）和拼趣（Pinterest，即P站）等跟随者就专注于图片分享和微博客等特定内容交互，红迪网（Reddit）专注于新闻交互，领英（LinkedIn）、玻璃门（Glassdoor）和千真万确（Indeed）专注于职场交互等子领域。在国内，由QQ和微信主导的中文社交网络领域，新浪微博、易信、陌陌甚至今日头条、快手等跟随者，也同样专注于特定子领域或内容。当然，这些会无形之中突破了静态市场边界的范围，让反垄断法实施中界定相关市场和测度市场力量的工作趋于复杂化。

（二）数据价值在很多情形下具有加速递减性

数据这个金矿某种程度上谁都能开采，但是数据很快变老的有限生命周期特性，让其瞬间就成为“历史”数据(Lyon, 2016)。这一点紧密相关于刻画大数据五大特性中有关“高速周转性（Velocity）”，反映了数据收集和处理的实时性和即时性。也就是说，用户数据的有效价值，总是随着时间的推移而快速衰减。数据统计网 (Statista,2015)对谷歌广告数据研究显示，当今世上现有数据中90%创自于近2年，而那些仍未经加工的原始数据中70%过90天就将过时。数据信息贬值快的背后原因是外界世界变化快。现有数据只反映过去的状况，在瞬息万变的世界里规律性的东西或许已改变。历史数据或许在分析市场趋势方面有点用，但是在指导即时决策方面的价值很有限。比如，过去的广告数据就无助于广告商在实时投标过程中决定展示哪个广告。同时，在像搜索引擎这样数据差异性大且更新率高的领域，历史数据的价值更低。据谷歌披露，其每天用户的搜索关键字和搜索结果排名记录中有15%是最新的，这意味着搜索算法不断需要新数据才能提供最相关的搜索结果排名。鉴于这两点，塔克(Tucker) & 韦尔福德 (Wellford,2014)有点极端地说，历史数据最多只能用于分析趋势，但无助于指导实时决策。新创者重走成功者的成功之路再也不能成功，新创者更需要的是获得与在位成功者同等的机会和机遇，并把握住。在位者的数据优势是短暂的，也是非决定性的。

进一步地，数据价值递减的速度是不断增加的，也就是说数据呈现规模报酬递减的规律。勒纳(Lerner,2014)对在线搜索和在线广告市场的研究发现，用户数据用于改善搜索结果的质量提升的效果越来越差，用于提高广告投放到目标受众的精准度的效果也如此。鉴于规模报酬快速递减的特性，大规模平台运营商可能在数据规模突破某个临界值后从额外新增数据中获得边际价值趋于零，而中小平台运营商更可能从新增给定量的数据中获得严格正的边际价值，从而诱导其竞相通过投资服务质量和研发环节，来吸引用户接入本平台。数据贬值很快且规模报酬也递减，仅凭借数据获得的竞争优势和市场支配地位会很短暂，很不稳固。进入者在数据收集和分析中不可能长期相对于在位者处于明显的竞争劣势。

因大数据而获取的竞争优势，也会因数据贬值快和规模报酬递减性而削弱，甚至消失，这一论断能刻画大数据在某些情景的应用。例如，用于培育搜索引擎算法的数据，或更一般的，作为预测决定的一个要素的数据，基于不确定性和风险来预测未来形势变化，而概率是描述不确定性和风险的常用手段。对当前和过去数据掌握量越多，概率测度越可信，预测结果也越可信。然而，预测准确性的提升幅度会随着所用数据规模的增加而递减：基于数据集推断的统计样本偏差总是会随着样本数据集的规模而递减，但是递减的速度在不断降低。绝大多数搜索引擎都很重视用户就搜索结果排名下的实际点击结果的数据信息，以不断改进和提升今后搜索结果排名与用户输入的关键字间的相关度。用户搜索和点击记录方面的数据量越多，搜索引擎运营商就拥有了一组更具代表性的样本观察值，有助于弱化异常数据带来的潜在扰动影响，改善搜索结果排名的相关性和科学性。但是，随着样本量的不断增加，每条基于搜索关键字的搜索结果排名记录及其实际点击数据中带有的边际信息量及其价值在不断降低。

不断需要更新的异质性数据，意味着海量通用性数据本身不一定当然对数据拥有者有利，而对潜在挑战者不利。基于数据的规模报酬递减性，竞争要点不在于新创者是否获得与在位者等量的数据，而在于是否能获得足量的高质且实时数据。例如，在搜索引擎领域，确保一个互联网搜索引擎富有竞争性所需要拥有的搜索数据量，应该会低于Google和百度等全球性或区域性的搜索巨头们多年累积的数据量。但是，相对于雅虎（Yahoo）、必应（Bing）、问答（Ask）和国内的360搜索、搜狗搜索等挑战者而言，这些主导性搜索引擎的搜索结果的优越性（主要是结果相关性）程度并不与其手握的数据量成正比，这一点很大程度上与数据规模报酬递减有关。

在2010年微软并购雅虎搜索业务案中，欧盟竞争委员会引用了微软提交的一份研究报告。该研究报告显示，对于绝大多数频繁使用的关键词，微软Bing搜索算法下的搜索结果与关键词间的相关度，与Google和Yahoo搜索下的相关度的总体差距并不大。

全面客观来看，并非所有数据信息贬值都那么快，也并非所有数据的边际价值（规模报酬）都会递减，这取决于相关市场的具体特性。像性别、名字、地址、出身日期、工作等有些用户数据并不会随着时间而贬值，至少贬值速度没有那么快。在其它条件相同的情况下，对这类数据的持有量上的优势可能有助于企业维持长期的优势地位。但由于这类贬值慢的数据占比较少、或者价值优势很有限，这种因数据而获得优势地位的现象相对较少。

当然，勒纳(Lerner,2014)等文献基于数据用于统计推断目的而得出数据规模报酬递减的结论有时可能也值得推敲，因为有一些数据的获取并非只用于推断目的，用于其他目的时其价值或许不具有规模报酬递减的特性。更何况，做出某个推断所需要的数据量有时可能并不是很多，当然对于像搜索引擎和在线购物推荐之类的市场情形，的确需要一定量级的数据才能保证足够高的推断准确率，以及搜索结果排名与用户输入的关键词间的足够高的相关度。因此，一个相对大规模的数据的确可能正向提升在线平台的竞争力。但提升程度和作用是个需要个案分析的理论问题。所以，竞争分析中，应结合不同应用场景来客观分析大数据的能力，不能高估也不能低估其影响。

（三）平台异质性与数据个性化

在线平台之间常常是高度差异性的，即便提供的是同一类型的在线服务。当每个进入者挤入在位者留下的市场空隙时，对自己最有用处的数据越来越不同于对竞争对手最有用的数据，各自都在努力更加准确地迎合市场狭缝中那一小部分目标用户的需求。其实，个性化的线上（和线下）平台收集到的用户数据往往是个性化和异质性的。不同于社交网络数据，搜索引擎收集到的数据更能识别那些搜索服务或产品的消费者。相比于通过优惠卡和退房收据手段获取数据的线下零售服务商，线上零售商获得数据，从数量和质量上都更有优势。同样地，通过台式电脑和笔记本电脑收集到的数据，可能不能与通过智能手机和平板等智能终端获得的数据相替代。除了这两个数据来源的用户群体的差异性之外，通过智能终端获取的数据还带有关于用户实时定位等额外信息。

当然，通过在线平台获得的数据的可替代性更强，但并不是完全的。即便提供同类服务，在线平台之间的异质性也很大，最合适其发展所需要的数据也不尽相同。消费者倾向于使用更能准确满足自己需求的平台，这就使得专业性平台更受特定群体欢迎。比如，想预定航班机票，消费者更可能会用客涯（Kayak）、亿客行（Expedia）、旅程网（Orbitz）、去哪儿和携程等旅行类搜索引擎，购物会用淘宝搜索、京东商城内部的搜索板块，有关在线购物、约会、社交和产品服务等在线平台也会有偏向于本领域的搜索业务，而百度、谷歌和必应等通用性搜索引擎也开拓了学术类搜索板块。

平台的差异化和个性化定位导致的一个必然结果便是，对某平台企业很重要甚至关键性的数据，对于其他平台企业可能价值有限，甚至毫无价值。需要新的差异化数据本身就意味着，持有海量的一般性数据并不必然会让持有者获益，而让潜在挑战者处于劣势。潜在竞争者不需要手握与在位者同等数量级的数据库，只需采取策略积累适量的高度相关且实时的数据就行。

（四）大数据并不当然具有市场进入的决定性

即便是在位主导性企业，收集、处理和使用用户数据的行为本身，也不意味着创建了一个高不可攀的进入壁垒。要正视大数据的能力，但拥有大数据并不能主导一切。正如兰博瑞(Lambrecht) & 塔克(Tucker,2015)论述的，从策略管理理论的资源驱动视角来看，一种资源只有同时满足四个原则或特性才可能长期维持竞争优势：不可仿效性(Inimitability)、稀缺性(Scarcity)、高价值性(Valuablity)和不可替代性(Non-substitutability)。当大数据不能同时满足这些特性时，也就不能当然依靠大数据获得或维持长期竞争优势。在有些特定互联网经济的子行业，用户数据甚至可能不单单是可仿效，相对并不稀缺，还可能是可替代的。

用户数据作为生产要素用于提升和改善服务质量和用户体验，是大数据的一个重要用途。但是，用户数据仅是互联网在线业务通往成功路上的一种生产要素，但不一定是决定性要素。作为21世纪的“原油”，作为生产要素的大数据，有助于向顾客提供有针对性的信息推荐服务和新产品，让用户群体间的交互更加有效率。对于基于广告的媒体或搜索平台而言，大数据让广告发布和推送更有针对性和更有价值，进而有助于平台向广告商索取更高的广告费。越多完备的用户数据让平台更能满足用户（包括广告商这样的用户）偏好需求，获利也就越丰厚。当然，这里会形成正反馈闭环，即这种高质服务吸引新顾客，实现需求侧规模经济，进而又让市场极化至在位的主导性平台。使用更多和更好的用户数据来提高产品和服务，本身就满足竞争的本质要求。

需要重点强调的是，单独手握海量用户数据本身往往不具有多大的经济价值和战略价值。单单数据本身，即便量级再大，也无法确保竞争上的成功。必须结合工程师天赋、服务质量、研发速度和对消费者诉求的满足等要素，这些海量数据才能激发出应有的价值。大数据的价值通常取决于能从这海量数据中提炼出来的新知识和信息，而不取决于大数据本身。或者说，从数据海洋中提炼出有用信息的能力，并不单单取决于可获取的数据量，更取决于数据分析要用到的算法和能力。正如范里安 (Varian,2009)所言，相对于大数据的收集和获取更为重要的一环是，解读海量数据和从中提取价值的能力。企业拥有知识产权保护或作为商业秘密的算法是异质性。

不同企业在数据驱动型市场上的服务质量和竞争力的差异性，并不能完全归责于各自手握的数据量的差异上。在微软并购雅虎搜索业务案中，欧盟竞争委员会认为，尽管Google在搜索结果排名的相关性上表现更优异，但是这一点本身并不能证明数据规模必然带来更高的搜索结果相关度。因为，还需要考虑数据之外的搜索算法和技术因素。因此，数据分析处理技能与经验，在评估小规模数据集的价值和影响时不容小觑。

鉴于作为生产要素的大数据的非决定性作用，手握最多数据者不一定是获胜者。例如，大数据在个性化经验重要的领域（如在线约会）很有价值，但是大型在线约会平台Tinder并非依靠大数据发家的，而是依靠有效的解决方案发展壮大的。再如，在通讯应用领域，后起之秀WhatsApp成功地抵挡住了手握海量用户数据的长期在位者AOL的激烈竞争，凭借低成本又易使用的用户接口和对用户诉求的关注得以发展壮大。国内的典型平台软件微信\淘宝等的成长秘籍，都不是大数据而更多的是对用户诉求的关注和对痛点的克服。

大数据的作用并非总是关键性的。即便手握海量用户数据，能否运用和如何运用数据都更重要。要建立大数据带来的持续竞争优势，数据掌握者至少应开发出两个方面的新能力：

其一是吸引专业化人才，集中开发培训数据算法或设计搭建有意义的实验，以获取智慧或条件帮助将大数据转变为一个有意义的竞争优势。正如波特（Porter） & 米拉 (Millar,2011)所言，信息技术能搭建起竞争优势，但是单单拥有数据信息并不足以保证能从竞争中胜出。还需要具备管理工具包和获得组织上的竞争力，以此压榨出大数据的应有价值，而非一味地囤积海量数据。

其二是需要使用大数据去前瞻性地理解消费者诉求的动态演化过程，而不单单利用过去的历史数据去对当前服务或产品做一些增量性的提升和改进。互联网数字经济的不稳定的演化历史并不能提供任何支撑，也就不能认为单单手握大数据就足以让在位者抵挡住提供更优质产品和工艺的进入者的挑战。数据持有企业应关注的是，如何利用数字技术以一种前所未有的方式向消费者提供双赢的交易。

当然，向用户私人定制性提供服务也可能提升价格歧视能力。首先要说明的是，有关水平差异的单边供给市场上的价格歧视可能会伤害企业而惠及消费者的传统认识，在双边市场领域不再是铁律。因为，双边市场的价格歧视事实上会软化竞争，使得价格歧视有利于社会福利的传统认识在双边市场环境不见得再成立。数字平台不能用相关数据去迎合个性化需求，在无形之中测度出了每个消费者针对特定产品或服务的支付意愿，这就为向高支付意愿者提高索价，而向低支付意愿者降低索价提供了前提条件。价格歧视伤害了原本在统一定价下索中度价格的高支付意愿者，也让那些支付意愿介于统一价格和边际生产成本之间的消费者能消费得起。这两种效应的相对大小取决于目标行业的特定条件。也就是说，如果不关注从消费者身上向平台运营商的剩余转移问题，大数据带来的价格歧视意图或行为的净福利效应是事实依赖型的。换言之，大数据诱导的价格歧视问题的利弊是不明朗的，需要进行个案分析。

三、与大数据相关的反垄断经济学分析

（一）网络效应和网络外部性

网络效应和网络外部性，不单是由法瑞尔(Farrell) & 萨洛纳(Saloner) (1985, 1986)和卡茨(Katz) & 夏皮罗(Shapiro)(1985, 1986)等经典文献开创的网络产业经济学的核心概念，更是当前热门的互联网经济中的核心词汇。网络效应是指，某个消费者接入某个网络系统的效用，直接相关于同样接入该系统的其他消费者数量，或者间接相关于兼容于该系统的互补性产品种类数。这两种情形下的网络效应依次被称为是直接和间接性的，其中间接网络效应亦称为交叉网络效应。根据这个相关性是正还是负的，网络效应也可分为正网络效应和负网络效应。由于这种（正或负）网络效应来自于消费者这一侧，因而在诸如专著夏皮罗(Shapiro) & 范里安(Varian) (1999)和范里安(Varian), et al.(2013)等相关的经典文献中又被称为需求侧规模经济（或不经济），以区别于来自于供给者这一方的传统的供给侧规模经济（或不经济）。

正网络效应（直接和间接）常被视为许多互联网数字平台趋于集中甚至是形成赢者通吃格局的最重要原因，但这种认识不能解释所有情形。因为，当网络效应较弱时，市场均衡结果并非总是独家垄断。同时，像在线搜索服务等诸多数字服务，根本就无法用正交叉网络效应或者需求侧规模经济来解释。使用用户历史数据去了解消费者需求，并以低成本提供更优质的个性化服务，是对这类平台服务的供给侧解释。这种解释背后机理不单是呈现为平均提供成本递减的规模经济效应，还有由经验积累和技能熟练引起的所谓干中学(Learning-by-Doing)和学习效应(Learning Effects)。根据欧盟数据保护指引（European Union’s Data Protection Directive, EUDPD），个人数据可以是相关于一个可界定或已界定的自然人或实体（如私人和公共组织）的任何信息，这里主要指用户数据。从海量的用户数据中学习和提升，可能抵消因规模过大引致的拥堵效应，但是需要事先进行批量的容量投资，同时还面临因技术变革所致的数据贬值等潜在风险。此外，利用数据驱动的正反馈效应可能具有潜在反竞争效应，会受到反垄断执法机构的关注。

依靠数据开展商业活动并非新智慧，包括利用线下渠道销售有形产品在内的很多产业和商业模式，都会不同程度地利用到收集的相关数据。在新经济出现前的所谓旧经济(Old Economy)里，用户数据也是企业追求利润目标最大化的一个重要的信息来源。然而，由于在线业务常要比线下业务更易收集到更多相关数据，同时在线业务借助自动处理软件和算法更能在短时间里处理和使用这些数据，数据的收集和使用是否会影响竞争和效率的问题，在互联网数字经济领域就更突出。用户数据的收集和使用，当前主要集中在诸如搜索引擎、社交网络和在线销售等在线服务子领域，并开始渗透至其他子领域，因而可以说大数据时代(Big Data Era)或者说大数据社会已到来。每个企业都想尽办法收集、处理和使用海量数据，以透析消费者的兴趣点和痛点，便于改进产品、提供个性化服务或精准化广告投放等。

有关用户历史记录和基本属性的大数据，俨然成为21世纪的新“原油”，成为当今和未来互联网的新“货币”，甚至可能成为继佛教、伊斯兰教和基督教之后的“第四大宗教”。如果说石油是工业时代最重要的大宗商品，那么数据将会是后工业时代或者说数字经济时代数一数二的大宗商品。作为数字经济的核心资源，对大数据的搜集、提炼、流转、分析乃至消费，将贯穿整个数字经济产业链，尤其是对数据的收集环节。可以说，谁掌握了数据产业链的关键环节，就将成为数字经济的核心参与者，将占据着具有战略性意义的竞争优势地位，因而针对数据收集环节的争夺异常激烈。

微软旗下的职业社交网站领英（LinkedIn）以用户隐私保护为名阻止雇员评估服务提供商HiQ Labs未经授权抓取其公开的用户数据而被hiQ Labs起诉、京东旗下“京东微联”智能家居应用软件将用户个人WIFI密码上传至京东服务器而被起诉、华为新款手机荣耀Magic收集用户的微信聊天记录而被腾讯诉讼等都是国内外互联网巨头或相关制造商争夺（或控制）收集用户数据引发争议的具体例证。再如，2017年6月，阿里系下子公司菜鸟网络和国内最大的综合性民营快递公司顺丰速递之间，就顺丰的丰巢自提柜物件数据信息共享而爆发的“丰鸟大战”，直接原因便是对快递物流数据信息的控制权和话语权的争夺。当下正是一个从石油时代向大数据时代过渡的历史阶段，像通用电子（GE）、西门子（Siemens）、亚马逊（Amazon）和阿里等诸多工业制造或电商公司都认为自己是一家数据公司的现象，就能在一个侧面说明数据在未来竞争中的核心地位。一个争夺数据及其货币化的竞赛开始了，但与数据紧密相关的隐私保护竞赛还没有到来。

“数据不是万能的，但是没有数据是万万不能的”。在数据为王的互联网数字信息经济和大数据时代，数据竞争已经取代了传统工业经济时代下的产品服务价格、数量和质量等要素的竞争，成为核心竞争形态。阿里巴巴创始人马云甚至强调，数据将成为主要能源（或土壤），离开了数据任何创新都是空谈。2017年6月亚马逊以137亿美元的大手笔收购全食超市背后的原因，被业界解读为亚马逊看中了全食超市积累的大量顾客数据，其在为亚马逊IoT+AI战略积累实体的实践场景。微软、IBM、GAFA和BAT等科技巨头也已经“争先恐后”布局大数据产品和服务，但至今无人站在大数据产业链的“高端”，大家基本还处于同一水平。大数据应用是一个竞争又合作的复杂关系，需要大数据与应用场景相结合，尤其是与云计算、人工智能进行深度融合。在学术界，在线业务以及包括大数据、网络效应、多归属性和市场竞争动态性等经济特征，从过去二三十年开始一直是产业经济学术争论的前沿领域。

数据成为了商业和科研的基石。当然，作为国内消费者的我们，在享受着推进算法、语音识别、图像识别、无人驾驶等智能技术带来的便利的同时，数据在背后担任着驱动算法不断优化迭代的角色。互联网数字经济的技术进步，变革着几乎所有部门收集、处理和商业化用户数据的方式和理念。随着数字平台中存有的几乎无限的用户数据的收集和处理能力，与有限的用户认知能力间鸿沟的不断扩大，在惠及用户群体的同时，也提出了有关人身自由丧失、数据算法工作原理不够透明、算法运营商的责任担当缺乏，以及被滥用于危害用户利益的风险等担忧 (Martens（马汀）, 2016)。从这个意义上来说，大数据社会就好比是一个黑箱社会(Black Box Society)。

显然，大数据时代带来了诸多新的理论和现实问题需要探究。从学术研究角度来看，大数据时代下对海量个人数据的收集、分析和使用衍生出三大类不得不面对的理论性问题：

（1）数据产权问题。海量的用户数据究竟应该属于平台还是用户？从经济学角度来看最佳的产权归属应该按照社会福利最大化目标和成本收益权衡原则来配置。将数据配置给平台企业，会产生更大的数据规模和范围经济，创造出经济价值，但是也可能侵犯用户隐私和安全，以及有助于其进行反竞争行为。将数据配置给用户则不存在这些收益和成本问题。直接比较这两种划分下的福利依然很困难。按照科斯定理，在交易成本足够低时，初始产权划分并不重要，通过交换对物品评价最高的一方将获得产权。借助思想实验发现即便那些宣称对隐私很重视的人也会以很低的价格出让自己的隐私信息，这印证了数据对于个体用户的价值低于对平台的论断。这也许意味着将数据产权界定给平台可能是更有效率的，但这一点又与后面讲到的隐私困境紧密相关。

当然，将数据产权划归给平台企业也会带来一些问题，这就涉及产权保护应采用什么规则。卡拉布雷西(Calabresi) & 梅拉姆德(Melamed) (1972)曾提出的财产规则、责任规则和不可转让性规则可以成为全球各国制定有关数据的政策规定遵守的基本规则。对于大部分数据，应当使用责任规则，可以允许需求者使用，并与数据所有者探究相关报酬；至于重要的隐私性数据，可适用不可转让性规则，即便企业可以拥有它，也不可轻易将其转移给他人。

（2）垄断化(Monopolization)或体现多用途性的集中多样性(Concentric Diversification)问题。集中多样性换用现代经济学术语表述，便是数据的范围经济。与之紧密相关的是问题是，如何预防平台滥用占有的数据？数据滥用出现时如何应对和惩处？

（3）包括机器学习、搜索引擎和社交网络等在内的先进算法和技术带来的责任和义务(Accountability)。比如确保在使用数据时保护用户隐私安全，防止隐私泄露。

数据产权问题是法学家更应考虑的问题，而后两个问题直接相关的是竞争政策和消费者权益保护议题，这两个问题背后的一个更基本问题是，强力的数据收集和处理系统与有限的人类认知能力、人类个体自由和自治价值后果之间的信息不对称性的不断扩大，那么追求透明和强调责任和义务是否能解决这些问题？本章重点关注这两个理论问题。

首先，关于垄断化问题。从整个社会角度来看，在数据收集和分析上的规模和范围经济，应该是促进经济效率的一个来源。因为，它不仅降低了搜索和匹配成本，还让一些原本不可能的新式交易得以发生，并促进了研发创新活动。数据的范围经济支持了“数据越多、纵向一体化越好”的论断。

手握不完全重叠数据资源的企业之间的并购重组，会壮大数据库容量和提升数据库信息量，进而是有利的。这也说明，数据交易可能潜在地对企业和消费者带来益处。收集到更多的用户数据，让数据拥有者能更好地对在线用户的差异化和个性化服务诉求，做出及时又准确的预测和应对。这种并购交易将带来数据重组和实现服务提升、价格降低和研发激励的数据驱动型效率论断，正是评分评论平台运营商巴扎声(Bazaarvoice)并购其竞争对手PowerReviews（2012）时向美国司法部和法院提供的理由，也是微软2010年并购雅虎搜索业务时主张的理由。最大的不同是，前者被禁止而后者得到批准。因为前案交易促成一个垄断者，而后案交易培育和壮大了一个能更有效地与行业领导者谷歌搜索进行竞争的对手。西班牙电信英国分公司(Telefonica,UK)/英国沃达丰（Vodafone）/英国EE公司（Everything Everywhere, UK）并购案（2012）和阳狮(Publicis)/宏盟(Omnicom)并购案（2014）均涉及数据分析服务提供商的竞争，无关于大数据滥用问题。

与每个硬币都有两面一样，大数据亦然。互联网数字经济时代下的企业，不单单是采用数据驱动策略来提升运作效率，有时甚至可能借此获得和维持一个不公平的竞争优势。正如OECD (2014)报告显示，大数据经济学倾向于形成市场集中和支配化。当集中化是市场成功的结果时，数据驱动型市场能带来赢者通吃的局面。

这里要强调的是，作为系统产品的互联网服务产品，必定是由处于多个环节的提供商相互合作的结果。这里所关注的企业不单单是提供互联网服务的互联网科技企业（如微软、GAFA和国内BAT等），还包括互联网产业链上下游各环节中的企业，特别是包括作为互联网接入和数据传输管道提供者的电信运营商，以及智能移动终端制造商（如华为、苹果、微软、小米、三星等），而其中有些企业“身兼多职”。本章重点关注提供互联网服务的互联网科技企业，但是许多议题同样适用于电信运营商和移动智能终端制造商等其他相关主体。要评判消费者数据信息的反垄断含义，必须深刻理解在线平台运营商收集、处理和使用数据的方式，以及各运营商借助数据开展的竞争性质和方式。

（二）大数据的多用途性和反垄断初探

绝大多数的传统经济分析方法与手段，不足以直接套用于分析以互联网为代表的多边在线平台市场，由此提供的规制和反垄断建议也不再适用。导致这种结果的重要原因，不单单市场多边性及其跨边需求依赖性，另外一个无法规避的原因是原有理论和智慧对大数据的核心角色和重要性的忽视。本章将专门探索大数据带来的反垄断问题和隐私保护问题，以及解答用反垄断手段来规避数据隐私损害问题的可行性和合理性问题。

1.数据的多用途性与反垄断

从双边数字平台视角理解大数据及其相关问题，是关键的切入点。当一个网络服务提供商同时迎合位于同一网络服务平台两边的两组消费者群体需求时，双边平台市场就出现。比如，社交网络平台给用户免费进入平台一边的社交网络服务的同时，依仗于提供另一边的广告发布服务获利。对任何双边数字平台的反垄断评估，都应当全面考虑平台各边的竞争关系和状况。某一个对平台某边而言属于反竞争的经济行为，从整个平台而言可能是促进竞争的，因而有关大数据的反垄断分析要综合权衡相关平台的利弊得失。

相对于线下渠道(或线下纵向一体化)等其他商业模式而言，借助现代通信技术而实行的线上纵向一体化甚至是数字平台模式运营的互联网科技企业，获得有关消费者全方位信息的能力和激励更强，也更能多目的性地处理和使用这些数据资源。用户数据至少能用于三个目的：作为提升服务能力和服务品质的生产要素；作为出售给那些缺乏数据或数据处理能力的企业的价值商品；作为平台维持优势地位，限制对手进入或诱导退出的策略性资源。

不同用途下的大数据带来的竞争效应是不同的，受到反垄断法规制的态度也应当是不同的。需要重点说明的是，作为生产要素的大数据和作为有价商品的大数据虽然都被认为是促进竞争的，无需外界干预，但是实质性区别是很大的。

对于作为有价商品的大数据，反垄断执法机构不宜贸然介入干预的一个重要原因是，界定数据的相关市场存在内在困难性。相关市场界定和市场势力评估是进行反垄断经济分析的基础。相关市场确定了哪些产品或服务是潜在竞争的；市场界定后就能测度一个企业实施市场势力的能力大小。这种市场轮廓的界定即便不是不可行，也是很困难的。在美国、欧盟和中国三大司法辖区里，借助假定垄断者测试(SSNIP)的替代性分析是界定相关市场的一个最基本和主流的方法。将这种逻辑应用于广告产业分析，会发现数据本身在在线广告销售过程中并不是一个相关产品，广告服务才是一个相关产品。因为大多数情况下，在线运营商都是将数据当作为产出其他服务的一个重要要素，而不是将它作为一个有价商品出售给其他需求方。因而，运营商们在数据销售中不存在竞争关系，也就不存在相互替代的问题。总之，如某些法律实施者所倡导的那样，将数据收集当作一个相关产品市场不单是不科学合理的，也是不具可操作性的。即便有可能准确勾勒出这个产品市场，也会是很困难的。在当前反垄断法框架下，消费者数据收集的相关市场难以界定。在2014年的脸书/WhatsApp并购案中，欧盟委员会（European Commission, EC）就以两个当事企业都不会向第三方出售数据为由，拒绝将数据收集或数据分析服务界定为一个市场。当然，欧盟竞争委员会并没有忽视并购后的数据集中化带来的潜在问题。

2.竞争分析中数据的潜在影响探析

（1）大数据作为市场势力的来源

只要手握海量数据能确保或有助于确保在某个市场获得一定的竞争优势，收集和处理数据就可能搭建起一个进入壁垒，成为市场势力的一个源头。如果新进入者不能收集数据或购买到等量级和同等质量的数据，就更可能如此。这里有必要澄清一下大数据市场里的获取壁垒(Access Barriers)概念的内涵和分类。大数据可分为数据产生、收集、存储、分析处理以及使用这五阶段，或者说组成了数据价值链(Data-Value Chain)。在数据价值链的开始阶段即数据收集中，理论上存在技术性的、法律性的和行为性这三种相互平行又相得益彰的壁垒类型。

当消费者数据信息是在位平台运营商开展或改进相应服务的一个有用要素时，不让竞争对手获取这些数据信息，并依靠信息优势来拓展市场势力边界是很容易的。比如，拥有大量在线注册购买者的大型购物入口或平台（如amazon、淘宝/天猫、京东商城等），获得了很大份额的消费者数据，有助于自己相对于其他中小型的竞争购物平台获得在产品营销和广告销售方面的优势地位。像购物入口等数字平台有动力并购(或联盟)那些手握较多用户数据的平台或企业，壮大用户数据资源库，为己所用。2014年美国司法部(DOJ)否决点评类平台Bazaarvoice和其主要对手Power-Reviews的并购申请，其理由是两者的水平并购会在评级与审查平台市场创造一个几乎处于垄断地位的巨头。这个巨头控制的海量数据，在网络效应、转换成本和声誉机制的共同作用下，垒建起了一个几乎不可突破的进入壁垒。这个进入壁垒，在原本就市场集中度较高和市场特点便于默契合谋的经济环境下，会潜在地形成对竞争的严重削弱。

对于像搜索引擎和社交网络等数据驱动型产业，市场集中度较高，往往由少数几家运营商把持很高的市场份额。这点类似于具有强网络效应的网络型产业。其实，大数据能同时让需求侧规模经济（网络效应）和供给侧规模经济（学习效应和自然垄断性）的影响出现倍增效应。大数据的收集和使用，提升在位者的市场势力，让（需求侧和供给侧）规模经济对竞争强度的限制或抑制性作用放大。

（2）大数据影响市场透明度

海量数据的收集和使用，经常可以显著地提升在线市场的透明度，让虚拟网络空间里的几乎任何产品或服务能几乎同时地被消费者、竞争对手和监管机构等各方利益主体所知晓。互联网数字经济里的服务价格、质量评价和信用诚信等重要数据易获取和实时更新的特性，让在线数字市场的透明性达到空前水平。

从经济角度来看，这个市场透明度对市场功能的影响却不是那么明确和清晰。一方面，消费者能从更轻易地对比各种同类产品或服务间的价格等属性特征，从更高的市场透明中获益。比如，价格比对软件(猫途鹰Tripadvisor和国内的如意淘和惠惠购物助手等)，使消费者能在掌握更多信息条件下进行购买决策，导致这类在线平台（甚至包括实体店）间的物品价格和质量竞争异常激烈，使消费者能从更低价和高质服务中获益。国内许多浏览器（如搜狗浏览器、UC浏览器、猎豹浏览器和360浏览器）和电商平台（如淘淘搜比价和亚马逊购物助手）也推出了比价板块或插件。有时，更高的市场透明度，也便于掌握更多有关消费者诉求和市场条件方面信息的新竞争者进入目标市场。

另一方面，随着掌握的有关消费者和竞争对手的重要信息的不断增多，企业越加有条件和动力将之用于排斥限制竞争。一个最基本的表现是，市场透明化提升了默契或显性合谋的稳定性。通过让相关成员企业更能侦查合谋契约偏离行为，市场透明性降低了偏离行为的预期利润或者说是单方面偏离某个合谋协议的激励。大数据时代下的市场透明化让合谋更稳定的一个典型表现是，价格数据在算法助推下能用于联合固定价格。通过处理所有可得的海量数据，以及监控、分析和预测其他竞争者对当前和未来价格的反应，竞争企业能轻易找到一个可维持和协调的超过竞争水平的合谋价格。数据驱动型算法也能用于维持一个协议和侦查偏离行为，以及让一个合谋价格以更准确的方式对外界市场条件的变动做出反应。另一个重要的表现是，拥有显著的数据优势的在位主导企业就相当于获得了一个独特的声呐系统，能在其他（直接或潜在）竞争对手刚“起航飞行”时就即刻追溯和跟踪到竞争威胁的“飞行轨迹和路径”。并且，在这些竞争者远未达到能被规制者和其他人感觉到之时，这种威胁就被垄断者“击落”或“收编”。当前国内互联网领域普遍出现的主动或被动“站队”现象或许就是一个体现。

正如斯塔克(Stucke) & 格伦斯(Grunes) (2016)所言，主导企业发起的反竞争的数据驱动型并购和滥用行为完全可能带来显著的损害，比如缺乏选择余地、研发创新、隐私和信任、个人自主与自由等。更进一步，随着企业更能滥用社会上更多的脆弱之人（如弱势群体）的隐秘数据，会进一步扩大收入差距，促使数据公正(Data Justice)作为一个不平等问题更加凸显。OECD (2014)甚至说，这种深度损害已经触犯到一个民主市场经济体和所有民众状况的核心价值理念。

的确，由庞大的各色各样数据形式组成的数据池可能形成护城河，带来诸多潜在风险。同时，数据驱动下的市场透明化也会带来某些潜在益处。首先，由单一企业提供的简单定价算法，即便无需明确的横向协调行为的配合，也能降低不确定性和行为偏差，从而促进竞争的开展。此外，数据驱动型的算法，能依据有关价格变动的历史数据，在设计价格固定机制的过程中将竞争者们的反应活动考虑进去。即便是由多家合谋企业联合设计的算法，也能准确地识别出任意一个成员企业的私下提价行为，并作出相应的惩处。从博弈和演化经济角度来看，在依靠数据及其数据驱动型算法运行的经济环境下，默契合谋行为也是复杂的机器学习过程的自然结果。问题是，惩处显性和默契合谋行为并没有那么简单。当消费者拥有与企业们对等的数据信息时，市场透明化常被认为是对消费者有利的。同时，在互联网经济和大数据时代下，实现超越竞争性水平的合谋结果不是非要经过协调一致的过程。

因此，从竞争执法机构和消费者角度来看，大数据既可能是促进竞争和经济福利的“天使”，也可能是主导企业用于损害竞争和经济效率的“恶魔”。至于到底是天使还是恶魔，主要看数据的用途和具体行业特性。总之，大数据是把双刃剑，关键在于握剑之人如何使用、用于干什么。

（三）作为策略性资源的大数据和反竞争效应

1.大数据与质量恶化

显然，有关用户特征的大数据，被用于作为阻挠进入或引诱退出的策略性资源的目的，是反竞争性的。大数据促使在线平台运营商拥有激励和能力，去构建进入壁垒和维持支配地位，通过限制竞争对手获得数据、避免对手共享数据、反对出台任何威胁到数据引致竞争优势的诸如数据可携带之类的政策。这样导致的结果或许不必然是价格居高不下，而是产品质量、研发创新和用户隐私安全等方面上的损害。纽曼(Newman) (2014)认为，GAFA和BAT等科技巨头们，会专注于通过利用海量数据去延展垄断势力和精准广告营销来获利，不再重视研发创新和增强服务技术等生产性活动。

海量的用户数据信息，让在位的主导性平台企业（如google和百度）能做出基于信息的产品服务提升，这一点是缺乏足够高质数据的其他中小型竞争对手（如FairSearch和360搜索等）难以做到的。换言之，中小平台企业往往不能充分地与大平台企业相竞争，往往是由于缺乏与大平台同等多量的高质数据信息可用。在大数据时代，主导性平台和竞争性平台之间的数据量的差距，及其产品质量差距在进一步扩大，竞争性平台给主导性平台施加的竞争约束将会弱化。这就无法迫使大平台企业去研发创新和为消费者提升服务质量。搜索引擎的搜索服务质量被相关文献近似为搜索用户获取一个满意的搜索结果所需花费的预期时间长度，这取决于搜索算法优劣、硬件质量和数据质量等多个影响因素，其中数据质量既包括在互联网上免费获取的数据也包括先期收集到的搜索引擎专用的数据。理论上硬件和互联网数据的获得性在竞争者间不应差异很大，主要的竞争问题是专用和高质的搜索数据获取的限制，而这又可归于市场份额上的显著优势，如谷歌和百度获得了远超其他搜索引擎的搜索数据和消费者点击行为数据。

主导性平台运营商有关投资选择和对用户数据的行为背后的策略考虑显示，这些主导性平台愿意获取更多数据；获取越多搜索数据，越能改进搜索算法和提供高质的搜索服务，从而夺取或维持搜索市场的领导地位。在某种意义上讲，数据收集的规模和广度被企业们视为竞争的重要维度。但问题是，并不清楚拥有的数据达到多少水平时才能让使用新增数据带来的边际收益超过因此增加处理负担带来的边际成本，但让边际成本高于边际收益的数据规模临界点不完全由google(和百度)等主导性搜索引擎决定，还受到其他大型搜索引擎(如必应、雅虎和搜狗等)的影响。

似乎绝大多数搜索引擎在改进搜索算法时只使用其掌握的搜索数据的一部分，并非所有可获得的数据。斯塔克(Stucke) & 扎拉奇(Ezrachi) (2016)就发现，数据获得量之间的差距导致了搜索引擎市场对搜索用户的搜索结果质量的潜在伤害现象。大的搜索引擎平台运营商有很强的激励和能力，去将付费广告排名优先于更相关、更高质的搜索结果。同时，数据差距也意味着用户往往无法察觉到服务质量的小幅恶化。全球搜索用户只知道谷歌给了一个优于必应和雅虎搜索的搜索结果，但是到底优质多少并不可知。在国内，大家也只知道百度给了一个优于360搜索和搜狗搜索的搜索结果，但不知道优质的具体程度。这样就使得谷歌和百度能有益地恶化一定程度的搜索服务质量。或者说，只要能保持自己的服务优于其他直接的主要竞争对手就行，没有十足的动力去追求极致，挣取将服务性能和用户体验做得更好。

另外一个问题是，目前美国联邦贸易委员会和欧盟竞争委员会等全球各地竞争执法机构都未发现，谷歌获得用户数据并有意地部分恶化搜索结果之举是反竞争的证据，更没有就这样一个问题形成共识，那就是大搜索平台在保持搜索结果优质于竞争对手的前提下，就搜索结果质量的增量性降低是否应受到反垄断的关注。一个企业有责任全身心地提供绝对最高质的产品，即便这样做并非利润最大化原则所要求的？没有任何法院和执法机构会强加这样的责任要求，更何况质量本身难以测度。

数据恶化质量的论断和政策主张，忽视了综合分析双边平台市场两边的重要性。增加广告空间无疑对广告主有利，却会导致搜索用户的搜索结果的质量降低和搜索服务的用户体验下降，这就需要反垄断经济分析时综合考虑和权衡这一行为对平台各边的影响。此时，判定依据应该是经济效率，而不应该是经恶化后的搜索质量水平是否低于搜索用户偏好的水平。

2.大数据与研发阻碍

大数据不仅可能会让数据支撑的服务质量被人为有意地恶化，还涉嫌阻碍研发创新活动，损害动态竞争的实现。当一家企业的价值体现是基于对用户数据的收集和货币化时，只要它手握足量用户数据，就获得能力和激励凭借这些数据排除潜在挑战者。作为竞争者的其他中小平台运营商就被排斥在必要数据之外或者只能付出高代价才能获得必要数据，缺乏研发并与大平台相竞争的激励动力。在财力雄厚的主导性平台运营商能并购潜在或现实的新进入者或初创者时，发起研发创新的一个来源可能被消除，竞争有可能被扼杀。但从另一角度来看，这种由主导平台并购进入者或初创者的所谓“大鱼吃小鱼”式并购也可能促进竞争和研发。因为在位主导者会被迫亲自加大研发投入，特别是利用数据来驱动研发活动。正如OECD (2015)关注到的，数据驱动型研发对社会福利和经济发展是个有利的推动。甚至，这些并购行为还可能诱导进入的频繁发生。所以，对中小竞争性平台的并购本身并不能当然表明对竞争的显著减低，也不应先入为主地认为当然要被反垄断法所禁止。

数字经济背景下，中小型平台也能并购大型平台，比如在线婚介领域，新锐百合网低价并购本领域的市场开拓者和主导者世纪佳缘，可谓是“小鱼吃大鱼”或者说是“蛇吞象”之举。其实，在大数据时代，由于数据的规模经济和范围经济效应的战略性作用的存在，无论是“大鱼吃小鱼”式并购，还是“蛇吞象”式并购都可能发生，这两种并购后的数据库共享会给当事企业在数据竞争中获取显著的竞争优势。从整个社会福利角度来看，这些并购的经济效应并不能当然得出结论。

由于大多数传统竞争工具都是基于价格和产出数量方面的影响展开分析，对质量的评估缺乏明确标准，对研发创新的关注并不足够。同时，考虑质量因素还存在增加竞争执法主体主观性风险的担忧，考虑研发创新因素面临很大不确定性的扰动，因而在有关大数据的竞争分析中引入质量和研发维度会面临很大挑战。同时，在大数据时代，企业的价格和产出竞争的重要性已经让位于数据驱动的竞争（即数据竞争）。某种意义上而言，服务质量和研发创新竞争也都是数据竞争的自然衍生产物。虽然数据竞争逐渐扮演着战略性作用并被业界所广泛认同，但是现在对数据竞争的学术研究仍不足以匹配现实对其的要求。正如OECD(2014, 2015)报告所言，不管怎样，随着大数据的日益重要，企业越来越多地利用数据驱动型策略获取运营效率的同时，无法排除其也会利用这些策略获取和维持不公平竞争优势的可能。

（四）作为要素或商品的大数据和促进竞争效应

数据用途是有关数据的反垄断案件分析认定的一个关键点。尽管数据用途的认定有时也不容易，但是基本上可以将之界定为三大类用途，每种用途背后的反垄断分析区别很大，竞争影响也不同。

1.作为有价商品的数据与反垄断

在2012年的西班牙电信英国分公司(Telefonica,UK)/英国沃达丰（Vodafone）/英国EE公司（Everything Everywhere, UK）合资案中，欧盟竞争委员会指出，相关消费者常能同时向多家市场运营商披露个人数据信息，这些数据常经处理后被商业化出售。因而，这些用户数据应被视为一种有价值的商业产品。自从2013年的美国尼尔森(Nielsen)并购阿比创(Arbitron)案后，大数据作为生产要素的反垄断案与数据作为可出售的价值产品的案件的内在区别性才开始正式被意识到，但是这两个用途的结果可能都是促进了经济效率和社会福利。互联网平台获得的用户及其数据越多，能更早地聚焦于研发重点和缩短研发周期，能更有效率、更有利可图地优化服务和推出新服务。作为生产要素的数据的影响效应几乎没有多少异议。

在一个基于广告的双边市场机制下，在线平台（如搜索引擎）扮演中介组织角色，帮助从消费者处收集数据，以及将广告版面或时间等资源有偿出售给有广告发布需求的企业。通过分析来自消费者的用户数据信息，平台运营商能为目标企业的产品或服务设计出个性化的广告策略。广告主理论上更能精准地投放广告和提升广告投放的击中率，而消费者也更能获得与自己兴趣点和疼点紧密相关的推荐服务。理论上讲，个人数据的使用所产生的价值不单惠及在线平台运营商，还惠及作为客户的企业和消费者。个人数据减轻了信息不对称性，实现了在线交易的有效性。同时，让广告商更能击中目标受众、节约广告费用和因提供更具针对性的服务而提升利润，更让消费者获得了更契合个人品味和需要的服务推荐，节约了搜索合意服务的成本和精力。

作为有价值商品的数据，则可做出两个方面的解读：

其一是，从消费者自身角度来看，就像用花费时间和精力看完广告换取无需货币支付的所谓“免费”产品或服务消费一样，用户只需提供个人信息数据换取“免费”消费某些数字产品或服务。有时，消费者自愿地分享个人数据也能得到一点货币回报或促销性优惠。比如个人隐私收集购买平台猎云网(Datacoup)就以某个正比例于相应广告商需求的价格向用户有偿购买个人数据，这样就使得广告商能获取到海量的经聚集和匿名性处理的Datacoup用户数据。采取货币购买个人数据的商业模式的典型应用还有屏幕趋势面板(Screenwise Trend Panel)和握手网(Handshake)等应用软件。显然，这种明显有偿获取用户数据的策略模式，对不基于任何货币回报的隐藏性数据收集这种主导性模式是一种有力的挑战。这还说明即便从消费者角度来看，个人数据也能当作是一个了解其在线活动和交易行为的交易媒介，也就存在或隐或现的对价标的。由此衍生出的一个重要问题是，消费者是否愿意分享个人数据以换取：（1）个性化服务、更相关的广告或推荐；或者（2）货币回报、折扣等促销优惠。诸多问卷调查给出了肯定的答案。不管怎样，用户的个人特征和消费记录信息都能理解为被用于交换有价产品。进一步地，个人数据的（有形或无形）价格会受到吸引消费者资源的潜在竞争压力的影响。

其二是，从互联网企业角度来看，收集和加工后的用户数据对于某些潜在雇主或保险公司拥有很大价值。将这些数据出售给雇主、保险公司或在线经纪公司实现变现，也是数字平台企业很重要的收益来源之一。用户数据商业化和变现能力，也是平台运营商能免费对外提供高质量产品和服务的基本保障。当然这里还涉及一个用户信息隐私和安全问题。

大数据时代普遍实现的一个利好是，科技企业能提供经高度补贴后的服务（常为免费服务）给消费者，只要能从消费者中获准允许将消费者数据在多边服务平台其他边上进行货币化(Monetization)。消费者被索取低价甚至免费享用，从竞争法角度无疑让这些消费者获益。以富有目的的广告营销的形式进行的数据货币化是个经济上理性的利润最大化之举，也让消费者利益得以实现。Newman (2014)等人批判免费服务提供，认为这样做会让原本就不能与在位者同等有效地货币化数据的竞争对手的处境更困难。这种论断完全忽视了反垄断的本质精神：能免费地向消费者提供高质量的服务是大数据货币化的促进竞争效应，而不是反竞争损害。

当然，退一步而言，单基于消费者能从免费服务中获益而主张竞争执法机构不应关切数据驱动型产业的论断也是站不住脚的。因为，消费者毕竟不可以真正得到“免费的午餐”，至少需要付出个人数据和隐私等方面的代价来交换。由于缺乏相应的透明度，消费者往往不知道自己为享用免费服务究竟付出了多少。

2.作为生产要素的数据与反垄断

用户数据不但能作为能直接货币化的有价商品，还能作为提供新产品服务或改良现有服务的生产要素而存在。很多有关大数据的竞争损害论断的背后逻辑都依赖于反馈闭环的强度，以及手握海量数据的在位大平台运营商拥有的网络效应强度。大数据导致网络效应，而网络效应在反垄断分析中扮演重要角色。但是，竞争执法机构、政策制定者和学者不能因此就武断地认为，在大数据中网络效应的存在自动导致反竞争性伤害的结果。严格而言，作为生产要素的大数据主要通过反馈闭环来实现需求侧和供给侧规模经济，提升经济效率，从而促进有效竞争。这里的反馈闭环主要包括两种：

（1）从用户反馈闭环（User Feedback Loop）视角，当一个平台拥有更多用户资源时，能收集到更多用户的数据信息，进而能对更多用户及其喜好有个更好的洞察，这就让该平台运营商能提升服务质量，进而又吸引更多用户接入。

首先，用户数据通过学习效应可以提升企业的现有产品或服务的质量。比如，更多的搜索记录和更能了解到每个搜索用户具体点击的关键条目，能帮助改进和精炼搜索引擎及其背后算法。这将提升搜索结果的科学性和搜索服务质量，进而吸引更多用户使用这个搜索引擎。类似地，安装在个人电脑或移动智能终端设备里的很多软件产品（比如网页浏览器和操作系统等），都会在后台收集关于本软件使用情况的详细信息。很多门户网站也会在后台收集用户在该网站的浏览轨迹的详尽信息，并用这些信息来确定已广泛被浏览的板块，或者诊断或预防技术故障等。显然，更多数据的重要性对于那些数据本身是服务或与服务产品紧密联系的服务类别尤其明显。前者是资讯类(如Reddit)或知识类平台（如Quora、知乎、喜马拉雅与得到、在行和分答等），而后者的典型例子是社交网络、电商和共享出行等。

其次，获取用户数据不仅能提高现有产品或服务的质量，还能帮助企业们开拓新的商业机会，通过再利用在某个服务提供过程中积累的用户数据，企业能开发出新产品或服务。国内即时通讯领域领先企业腾讯利用QQ和微信app应用里沉积下来的海量数据，揭示全国各地的道路交通和旅游景点的拥堵状况，在春运期间全国各地人民流动情况等新的有偿或公益性服务。特别要提及的是，借助数据来更好地“命中”或“狙击”潜在消费者，并为之提供个性化产品服务和广告，起到帮助平台运营商增收而广告商又降低广告负担的目的。

（2）从货币化反馈闭环（Monetization Feedback Loop）角度，随着一个平台拥有更多用户资源和收集到更多用户数据，平台运营商更能从有针对性地出售广告中获益。更好的商业化平台带来的高收益能进一步投资于提升服务质量，和吸引更多用户接入。总之，经济学文献显示，事实上收集用户数据能有助于提供改善版的产品或服务、产品推荐甚至免费内容。当然，对消费者而言，并不存在所谓的“免费的午餐”，任何所谓的免费服务或内容都是噱头，并非真正不需要消费者有所付出，只是这种付出是以提供个人数据或观看广告等形式来呈现的。

需要说明的是，尽管大数据理论上可以用于作为致力于提升服务品质的生产要素，也能用于作为可直接变现的有价商品，还能用于作为阻扰竞争和维持（或巩固）优势地位的策略性工具，但是直接辨别特定数据具体被用于何种意图的难度，不亚于判定特定行为是促进竞争还是反竞争的难度。手握海量的历史搜素数据和用户点击行为数据的确可能有利于改进搜索算法，但是在新增单位数据的新增收益超出处理这单位数据的增量成本前，需要多少数据量才能改进搜索算法的问题仍不清楚。这就使得研究搜索引擎的文献出现这样一个争论，那就是google 的海量数据是否使其维持了市场地位，还是代表了一种优质的发明，促使其能提供高质搜索服务。总体而言，Google基于海量的用户点击行为数据分析来投放广告的高人一等的能力，以及投放和监控广告进展的固定成本共同导致了从搜索用户到广告商间的间接网络效应，最终让谷歌搜索引擎成为一个双边市场。

尽管不同行业的进入壁垒相差很大，还会随时间而变化，但是诸多坚持双边平台领域存在强大网络效应的实践者认为，表明了数据驱动型市场的规模经济和网络效应，在用户和货币化反馈闭环作用下会导致赢者通吃结果，构建起一个无法穿越的进入壁垒。事实上，反馈闭环的强度总体上是被高估的。因为大数据的经济学特征会弱化反馈闭环的强度。除了研发创新、拥堵效应、跨平台网络效应、定价结构等一般性特征之外，有关大数据的个性特征也会如此，比如在线运营商有时能采用一种无关于用户数据的办法做大规模，单单手握数据并不足以能提升服务和做大规模，能从用户之外的渠道获取数据，以及能通过策略性配置安排等办法做大数据体量等等。

（五）大数据反竞争效应分析之复杂化

需要重点说明的是，由于理论工具储备有限性和对大数据及其背后机理的认识的相对有限，有关大数据的反竞争效应分析是异常复杂的。首先体现的是，数字网络平台领域对用户数据信息的强调，会让表面上的纵向经济行为带有横向意味。横向行为(如横向并购)具有反竞争性的可能性要高于纵向经济行为（如纵向并购），这样就让该领域原本就复杂的反垄断认定和执法进一步复杂化。

涉及大数据的反垄断分析异常复杂的另外一个重要体现是，这样一个富有直观性的普遍论断并不总成立。那就是许多学者和执法人员认为的有关数据驱动型市场普遍存在的规模经济和网络效应导致的赢者通吃结局，无形之中建造了一个难以逾越的进入壁垒。显然，这种论断基于这样一个逻辑，那就是中小竞争对手和挑战者，由于缺乏可匹敌的用户量和数据量而无法推出高质服务和吸引更多用户资源，从而无法向在位平台施加有效的竞争压力。

这个论断不总成立的第一点也是最重要的原因是，这种逻辑缺乏现实证据的有力支持。无论是对诸多的反垄断案例和竞争执法机构行为的整体回顾，还是对相关大数据的案例(如谷歌并购DoubleClick案、谷歌并购ITA案和脸书并购WhatsApp案)和执法机构庭外调解实践的分析，都没有明确找到用户数据构成一个进入壁垒的有力证据。竞争执法机构和法院只是怀疑，在那些无法从消费者身上或大数据市场获得的数据销售过程中，与数据相关的进入壁垒可能会出现。显然，对于那些能借助互联网手段从消费者身上收集到的数据，他们也得到同样的判断。

在2007年美国联邦贸易委员会和欧盟竞争委员会都无条件批准两大搜索广告巨头谷歌和DoubleClick的并购申请。竞争执法机构的判定依据是，谷歌和DoubleClick虽然都掌握着有关用户搜索和浏览记录信息的海量数据，但是在在线广告和搜索服务市场都不是紧密的（直接或间接）竞争对手，在位者谷歌通过并购DoubleClick实现在在线广告市场获得海量用户数据并不构成一个进入壁垒(美国联邦贸易委员会, 2007)。两大执法机构都认为，即便谷歌今后在“精准化”广告业务时能使用DoubleClick原来的用户数据，但是这些数据并不是一个成功的在线广告服务产品的不可或缺要素。更何况，其他竞争对手也能从其他渠道取得类似的数据。

美国司法部(DOJ)在2011年附条件批准谷歌收购在线电子定价、航班信息软件和购物平台ITA软件(ITA Software)时称，由于ITA的基础数据是亿客行（Expedia）、品橙旅游(Travelocity)、必应旅游(Bing Travel)、客涯（Kayak）、Farelogix和旅程网（Orbitz）等旅行类网站和搜索平台开展相关业务的一个生产因素，涉及的数据获取问题是一个潜在的纵向限制行为，其核心问题被认为是谷歌是否有能力和动力实施数据驱动的排他性行为，以排斥那些旅行类搜索平台。具体而言是并购后谷歌是否能恶化或提升这些旅行类搜索平台使用基础数据的成本。最终批准并购的附加条件主要包括：谷歌保证继续以公平、合理又非歧视的（FRAND）交易条件向其他相关公司授权ITA系统数据获取，且不会使用ITA系统内的数据进行盈利运作；谷歌不得与航空公司签署协议不适当地限制航空公司与谷歌的竞争对手共享座位和订购类别信息的权利，同时要求谷歌自主建立一个防火墙，防止谷歌自己接触竞争对手在ITA服务器上运行的专有软件等。

美国联邦贸易委员会和欧盟竞争委员会在2014年批准脸书收购基于网页的通信应用软件WhatsApp。期间数个消费者群体向美国联邦贸易委员会提出，这起并购会巩固脸书的数据获取及其借助广告进行货币化的能力，而这点违背了WhatsApp事先的承诺。美国联邦贸易委员会在不到两个月里就批准并购申请，同时申明数据的隐私安全问题是属于消费者保护法律规范的范畴，并向消费者保护局主任发信提醒，今后要在隐私安全法律框架下持续关注该起并购后的隐私保护问题。

欧盟竞争委员会在此案中引入了一个有关大数据产业排他性行为的分析框架，并无条件批准该并购申请。欧盟竞争委员会指出，虽然在通信市场领域网络效应有时的确会引起进入壁垒，但是这宗交易不可能提高进入壁垒。其依据主要有两点：首先，消费者能同时使用多个类似的app且能轻易更换使用其他app；再则，除了脸书之外，当前欧盟市场里存在包括谷歌、苹果、亚马逊、Ebay、微软、AOL、雅虎、Twitter、IAC、领英、Adobe和Yelp等在内足够多的强大市场参与者，都能收集和使用用户数据信息。欧盟竞争委员会认识到，在信息通信这样的变化快速的在线市场里，网络效应作为进入壁垒事实上是不存在现实依据支撑的。除了该起并购案，美国联邦贸易委员会在2011-2012年间对谷歌的调查，也关注到了数据在竞争上的重要性，发现谷歌互联网搜索行为（包括组合型搜索和广告业务）总体上并不如大家认为的那样富有反竞争性。

另外一个重要原因是，忽视了大数据内在的经济特征带来的抑制效应和对抗作用。大数据的一大特征是，在线运营商能采取一个无关于用户数据的方式做大用户规模，单单数据本身并不足以提高服务质量和做大用户规模。同时，运营商的数据来源不局限于消费者，也能从数据经纪机构获得，还能通过策略性配置安排等其他手段获取。因此，大数据在网络效应和规模经济下阻挠竞争的背后机制被高估了。微软在2010年就搜索结果和广告与雅虎进行的战略合作得到欧盟竞争委员会的认可。这背后的逻辑便是，被并购主体雅虎通过研发和接入到一个更大索引（这里是指必应）能提供个性化搜索结果，更好地迎合搜索用户的偏好。

（六）大数据的净竞争效应

数据收集和使用并非互联网经济时代下的新现象。在先前的非数字市场竞争执法机构对数据优势进行过了竞争审查。保留顾客资源和开展消费者回访和市场调研，长期以来都是任何一个商业企业的必做工作。只是随着新信息技术的变革和整个经济从深度和广度范围的不断数字化，不断拓展了数据的性质、来源、应用和数量。过去线下调研或通过电脑收集的单维度、片段化数据到现在由智能终端（比如智能手机、智能穿戴设备等）提供的多维度、实时全方位数据。一个用户在网络虚拟空间的所有“旅行”踪迹，都能跨设备地被追踪和记录。新式的用户数据不局限于企业直接决策之用，还用于机器决策和学习。

新式数字化数据获取带来的竞争优势程度及其对最终的竞争结果的影响，将要比非数字市场下传统式用户数据带来的影响要深远。数字化数据带来的竞争影响主要取决于两个方面：（1）数据的稀缺性程度或者数据复制的难易程度；(2)数据收集的规模和多样性的重要程度。由于这两方面的原因，这个影响不都是决定性的，至少在有些互联网子领域是这样的。

一方面，用户数据要结合其他要素和能力才能发挥应有作用，单单手握海量数据并不保证就能成为获胜者。一个运营商获取了某些用户的数据，本身不能阻挡其他竞争者也获取这些用户的数据。用户的多归属性连同单个运营商同时提供多种服务的事实，为实时收集用户依赖型的数据提供了可能。然而，收集这些数据必须基于运营商能掌握足够多的用户基础，而这一点反过来又取决于何种程度上网络效应和学习效应扮演了进入壁垒的作用。数据经纪业务的发展更是让数据获取更容易，阻挡和控制数据更困难。这个第三方数据来源的具体影响，还要取决于数据性质、保护用户隐私安全的合约性或规制性规则，以及运营商们与竞争对手有偿共享各自的数据优势的意愿程度。总体而言，这些因素，及其数据规模报酬加速递减、迅速贬值和异质性的特点，通常会让数据获取能力差异对竞争产生伤害的风险大打折扣。

另一方面，经济数字化和线下活动的线上连接，显著地增加了可获取的数据量。“数据无处不在”的观念本身并不说明容易囤积数据会排斥他人，这个论断取决于两个条件：其一是相关数据是否能获取，具有可获取性；其二是各种类型数据是否具有可替代性，或者即便不具可替代性，各类数据要能广泛获取。数据能否作为一个策略性手段和排斥竞争，部分地取决于数据的临界水平：达到这个水平，运营商就能收获数据带来的诸如提升服务质量、开拓新业务和价格歧视增收等各种潜在裨益；而远远超出这个水平，这些规模报酬将下降甚至消失。

在许多行业里，有关消费者沟通和社会人口统计方面的数据信息的边际价值，相对于更新要求而言基本是稳定的。但是，用于统计推断目的的数据价值，可能在数据量突破某个临界值之后就开始下降。因为，统计样本误差率会随着每额外新增一单位的数据而降低。但是，对于那些需要高频率地调整变动才能维持竞争力的业务而言，在数据量突破临界水平之前要不断收集和更新数据库。此外，数据范围和多样性与数据规模量同样重要，这两个维度共同决定着数据内涵的信息量。数据的可获取性和可替代性问题成为对涉及数据的反垄断案中的争议焦点。在蛙跳式竞争而非增量性改进下，消费者福利才能最显著地提升。反垄断法要培育和维持一个让稳健而又快速的研发创新成为可能和得到激发的外界环境，而对大数据采用家长式管理和处理办法既不能培育也不能维持这样的环境，而可能导致市场停滞和平台运营商之间的相互猜忌和忧虑。

总之，有关消费者个人特征和消费记录的海量用户数据的竞争效应定性，尤其判定其是否搭建起了一个限制竞争和反效率的进入壁垒，关键要看使用数据驱动型策略的目的和效果，以及具体的行业环境。换言之，大数据促进运行效率还是获得或维持不公正的竞争优势，很大程度上取决于如何使用大数据和效果如何。在位者拥有更多数据并不是“原罪”，需要正视大数据的能力及其极限，不要过于神化，也不要过于妖魔化。一句话，大数据是“天使”还是“恶魔”，关键在于数据用途和行业特点。

目前，深入和全面探索反垄断法能够或应当如何用于涉及大数据的特定问题的理论性分析成果还相对匮乏。而且，反垄断法限制收集和使用大数据以及强迫分享数据等补救措施还可能伤害竞争和研发创新，也会带来数据隐私和安全问题的担忧。

四、结论

随着新信息技术的变革和整个经济从深度和广度范围的不断数字化，拓展了数据的性质、来源、应用和数量。一个用户在网络虚拟空间的所有“旅行”踪迹，都能跨设备地追踪和记录。颗粒化数据不局限于企业直接决策之用，还用于机器决策和学习。数据获取带来的竞争优势程度及其对最终的竞争结果的影响，比非数字市场下传统式数据带来的影响深远。用户数据要结合其他要素和能力才能发挥应有作用，单单手握海量数据不保证能成为获胜者。数据规模报酬加速递减、迅速贬值和异质性的特点，通常让数据获取能力差异对竞争产生伤害的风险大打折扣。

经济数字化和线下活动线上连接，显著地增加可获取的数据量，但不能说明囤积数据可以轻易排斥他人。此外，数据范围和多样性与数据规模量同样重要，共同决定着数据内涵的信息量。数据的可获取性和可替代性问题则是涉及数据的反垄断案中的争议焦点。而有关消费者个人特征和消费记录的海量用户数据的竞争效应定性，关键要看使用数据驱动型策略的目的和效果，以及具体的行业环境。大数据是“天使”还是“恶魔”，关键在于数据用途和行业特点。

反垄断法对大数据应用的规制应审慎，尤其是对数据隐私和安全保护作用有限。竞争执法机构应关注限制收集和使用大数据以及强迫分享数据等反垄断救济措施可能也会伤害竞争和研发创新，还会带来新的数据隐私和安全问题。