AI-modus van hartaanvalvoorspelling los met ‘no-code’-tools

AI-modus van hartaanvalvoorspelling los met ‘no-code’-tools
Zoom / Ah, de makkelijke knop!

Oric Lawson | Getty Images

Dit is de tweede aflevering van onze verkenning van machine learning zonder code. In ons eerste artikelhebben we onze probleemset uiteengezet en de gegevens besproken die we zullen gebruiken om te testen of een sterk geautomatiseerde ML-tool die is ontworpen voor bedrijfsanalisten, kosteneffectieve resultaten kan opleveren die in de buurt komen van de kwaliteit van Meer code-intensieve methoden Het omvat een beetje door mensen aangestuurde datawetenschap.

Als je dit artikel niet hebt gelezen, kom dan in ieder geval terug schep het door. Als je helemaal klaar bent, laten we eens kijken wat we gaan doen met onze hartaanvalgegevens onder “normale” (d.w.z. de meest code-intensieve) machine learning-omstandigheden en dan alles weggooien en op de “eenvoudige” knop drukken.

Zoals eerder besproken, werken we met een reeks hartgezondheidsgegevens die zijn ontleend aan een onderzoek in de Cleveland Clinic en het Hongaarse Instituut voor Cardiologie in Boedapest (plus andere plaatsen waarvan we de gegevens om kwaliteitsredenen hebben weggegooid). Al deze gegevens zijn beschikbaar in pakhuis We hebben het op GitHub gemaakt, maar de oorspronkelijke vorm maakt deel uit van datawarehouse Het werd onderhouden voor machine learning-projecten door de University of California – Irvine. We gebruiken twee versies van de dataset: een kleinere, completere versie bestaande uit 303 patiëntendossiers van de Cleveland Clinic en een grotere database (597 patiënten) die HGI-gegevens bevat, maar waarvan twee soorten gegevens uit de kleinere set ontbreken.

Het lijkt erop dat de twee ontbrekende velden met Hongaarse gegevens belangrijk kunnen zijn, maar de Cleveland Clinic-gegevens zelf zijn mogelijk te klein voor sommige ML-toepassingen, dus we zullen proberen onze basis te dekken.

READ  CRUS-pijl in vrije val op geruchten Apple iPhone 15-make-over

het plan

Met meerdere datasets bij de hand voor training en testen, is het tijd om te beginnen met grinden. Als we het zouden doen zoals datawetenschappers dat gewoonlijk doen (en zoals we vorig jaar hebben geprobeerd), zouden we:

  1. Verdeel de gegevens in een trainingsset en een testset
  2. Gebruik trainingsgegevens met een bestaand algoritmetype om het model te bouwen
  3. Controleer het model met de testset om de nauwkeurigheid te verifiëren

We kunnen dit allemaal doen door het te coderen in de Jupyter-notebook en het model aan te passen totdat we een acceptabele nauwkeurigheid hebben bereikt (zoals we vorig jaar deden, in een eeuwigdurende cyclus). Maar in plaats daarvan proberen we eerst twee verschillende methoden:

  • Een ‘no-code’-benadering met Sagemaker Canvas van AWS: Canvas neemt gegevens als een geheel, splitst deze automatisch op in training en testen en genereert een voorspellend algoritme
  • Een andere “no-/low-code”-benadering met Sagemaker Studio Jumpstart en AutoML: AutoML is veel van wat er achter Canvas zit; Het evalueert de gegevens en probeert een aantal verschillende soorten algoritmen om de beste te bepalen

Als we dat hebben gedaan, zullen we een van de vele beproefde machine learning-methoden gebruiken waarmee datawetenschappers al hebben geëxperimenteerd met deze dataset, waarvan sommige een nauwkeurigheid van meer dan 90 procent hebben geclaimd.

Het eindproduct van deze methoden zou een algoritme moeten zijn dat we kunnen gebruiken om een ​​voorspellende query uit te voeren op basis van gegevenspunten. Maar de echte output zal een blik zijn op de afwegingen voor elke benadering in termen van tijd tot voltooiing, nauwkeurigheid en de kosten van rekentijd. (In onze laatste test blies AutoML zelf praktisch het volledige tegoed van het AWS-account op.)

READ  Google Chrome voert nu een controle op de wachtwoordintegriteit op de achtergrond uit

Een reactie achterlaten

Je e-mailadres zal niet getoond worden. Vereiste velden zijn gemarkeerd met *