Ignore:
Timestamp:
2019-12-18T21:38:44+13:00 (4 years ago)
Author:
ak19
Message:

With the bugfix from yesterday and the inclusion of http(s):mi.* type URLs in setting the Websites mongodb collection's urlContainsLangCodeInPath property, and updated/improved mongodb queries and their results I have now regenerated the latest geojson json data and maps.

File:
1 edited

Legend:

Unmodified
Added
Removed
  • other-projects/maori-lang-detection/mongodb-data/counts_tentativeNonProductSites.json

    r33806 r33813  
     1/*
     2
     3The websites that have some MRI detected AND which are either in NZ or with NZ TLD
     4or (so if they're from overseas) don't contain /mi or mi.* in URL path.
     5We'll include Australia, to get the valid "kiwiproperty.com" website,
     6otherwise the sole exception, included in the result list.
     7
     8
     9db.getCollection('Websites').find({$and: [
     10                {numPagesContainingMRI: {$gt: 0}},
     11                {$or: [{geoLocationCountryCode: /(NZ|AU)/}, {domain: /\.nz$/}, {urlContainsLangCodeInPath: false}]}
     12            ]}).count()
     13
     14397
     15
     16Aggregate results by a count of country codes:
     17
     18db.Websites.aggregate([
     19    {
     20        $match: {
     21            $and: [
     22                {numPagesContainingMRI: {$gt: 0}},
     23                {$or: [{geoLocationCountryCode: /(NZ|AU)/}, {domain: /\.nz$/}, {urlContainsLangCodeInPath: false}]}
     24            ]
     25        }
     26    },
     27    { $unwind: "$geoLocationCountryCode" },
     28    {
     29        $group: {
     30            _id: {$toLower: '$geoLocationCountryCode'},
     31            count: { $sum: 1 }
     32        }
     33    },
     34    { $sort : { count : -1} }
     35]);
     36
     37*/
     38
    139/* 1 */
    240{
    341    "_id" : "us",
    4     "count" : 475.0
     42    "count" : 181.0
    543}
    644
    745/* 2 */
    846{
    9     "_id" : "cn",
    10     "count" : 114.0
     47    "_id" : "nz",
     48    "count" : 89.0
    1149}
    1250
    1351/* 3 */
    1452{
    15     "_id" : "nz",
    16     "count" : 98.0
     53    "_id" : "au",
     54    "count" : 21.0
    1755}
    1856
    1957/* 4 */
    2058{
     59    "_id" : "de",
     60    "count" : 19.0
     61}
     62
     63/* 5 */
     64{
    2165    "_id" : "fr",
    22     "count" : 36.0
    23 }
    24 
    25 /* 5 */
    26 {
    27     "_id" : "de",
    28     "count" : 26.0
     66    "count" : 17.0
    2967}
    3068
     
    3270{
    3371    "_id" : "nl",
    34     "count" : 22.0
     72    "count" : 16.0
    3573}
    3674
    3775/* 7 */
    38 {
    39     "_id" : "au",
    40     "count" : 17.0
    41 }
    42 
    43 /* 8 */
    44 {
    45     "_id" : "ca",
    46     "count" : 13.0
    47 }
    48 
    49 /* 9 */
    5076{
    5177    "_id" : "dk",
     
    5379}
    5480
     81/* 8 */
     82{
     83    "_id" : "ca",
     84    "count" : 7.0
     85}
     86
     87/* 9 */
     88{
     89    "_id" : "es",
     90    "count" : 6.0
     91}
     92
    5593/* 10 */
    5694{
    57     "_id" : "es",
    58     "count" : 7.0
     95    "_id" : "gb",
     96    "count" : 5.0
    5997}
    6098
    6199/* 11 */
    62 {
    63     "_id" : "gb",
    64     "count" : 7.0
    65 }
    66 
    67 /* 12 */
    68100{
    69101    "_id" : "cz",
     
    71103}
    72104
     105/* 12 */
     106{
     107    "_id" : "at",
     108    "count" : 3.0
     109}
     110
    73111/* 13 */
    74112{
     
    79117/* 14 */
    80118{
    81     "_id" : "at",
     119    "_id" : "ro",
    82120    "count" : 3.0
    83121}
    84122
    85123/* 15 */
     124{
     125    "_id" : "il",
     126    "count" : 2.0
     127}
     128
     129/* 16 */
    86130{
    87131    "_id" : "ch",
     
    89133}
    90134
    91 /* 16 */
    92 {
    93     "_id" : "ro",
    94     "count" : 2.0
    95 }
    96 
    97135/* 17 */
    98136{
    99     "_id" : "il",
    100     "count" : 2.0
     137    "_id" : "bg",
     138    "count" : 1.0
    101139}
    102140
    103141/* 18 */
    104142{
     143    "_id" : "sg",
     144    "count" : 1.0
     145}
     146
     147/* 19 */
     148{
     149    "_id" : "mx",
     150    "count" : 1.0
     151}
     152
     153/* 20 */
     154{
     155    "_id" : "ir",
     156    "count" : 1.0
     157}
     158
     159/* 21 */
     160{
     161    "_id" : "cn",
     162    "count" : 1.0
     163}
     164
     165/* 22 */
     166{
     167    "_id" : "ie",
     168    "count" : 1.0
     169}
     170
     171/* 23 */
     172{
     173    "_id" : "jp",
     174    "count" : 1.0
     175}
     176
     177/* 24 */
     178{
     179    "_id" : "fi",
     180    "count" : 1.0
     181}
     182
     183/* 25 */
     184{
     185    "_id" : "gr",
     186    "count" : 1.0
     187}
     188
     189/* 26 */
     190{
     191    "_id" : "ru",
     192    "count" : 1.0
     193}
     194
     195/* 27 */
     196{
    105197    "_id" : "unknown",
    106     "count" : 2.0
    107 }
    108 
    109 /* 19 */
    110 {
    111     "_id" : "hk",
    112     "count" : 2.0
    113 }
    114 
    115 /* 20 */
    116 {
    117     "_id" : "jp",
    118     "count" : 2.0
    119 }
    120 
    121 /* 21 */
    122 {
    123     "_id" : "ie",
    124     "count" : 2.0
    125 }
    126 
    127 /* 22 */
    128 {
    129     "_id" : "ua",
    130     "count" : 2.0
    131 }
    132 
    133 /* 23 */
    134 {
    135     "_id" : "se",
    136     "count" : 1.0
    137 }
    138 
    139 /* 24 */
    140 {
    141     "_id" : "gr",
    142     "count" : 1.0
    143 }
    144 
    145 /* 25 */
    146 {
    147     "_id" : "ru",
    148     "count" : 1.0
    149 }
    150 
    151 /* 26 */
    152 {
    153     "_id" : "eu",
    154     "count" : 1.0
    155 }
    156 
    157 /* 27 */
    158 {
    159     "_id" : "bg",
    160     "count" : 1.0
    161 }
    162 
    163 /* 28 */
    164 {
    165     "_id" : "fi",
    166     "count" : 1.0
    167 }
    168 
    169 /* 29 */
    170 {
    171     "_id" : "sg",
    172     "count" : 1.0
    173 }
    174 
    175 /* 30 */
    176 {
    177     "_id" : "tr",
    178     "count" : 1.0
    179 }
    180 
    181 /* 31 */
    182 {
    183     "_id" : "mx",
    184     "count" : 1.0
    185 }
    186 
    187 /* 32 */
    188 {
    189     "_id" : "ir",
    190     "count" : 1.0
    191 }
     198    "count" : 1.0
     199}
     200
Note: See TracChangeset for help on using the changeset viewer.